論文の概要: Generalizability of Large Language Model-Based Agents: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2509.16330v1
- Date: Fri, 19 Sep 2025 18:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.736542
- Title: Generalizability of Large Language Model-Based Agents: A Comprehensive Survey
- Title(参考訳): 大規模言語モデルに基づくエージェントの一般化可能性:包括的調査
- Authors: Minxing Zhang, Yi Yang, Roy Xie, Bhuwan Dhingra, Shuyan Zhou, Jian Pei,
- Abstract要約: LLM(Large Language Model)ベースのエージェントは、Webナビゲーションや家庭用ロボティクスなど、さまざまな領域に展開されている。
関心が高まっているにもかかわらず、LLMベースのエージェントにおける一般化可能性の概念は未定義のままである。
本調査は,多種多様なアプリケーションにまたがって,信頼性の高い汎用化を図ったLCMエージェントの構築に関する原則研究の基盤を確立することを目的としている。
- 参考スコア(独自算出の注目度): 32.40919143404769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based agents have emerged as a new paradigm that extends LLMs' capabilities beyond text generation to dynamic interaction with external environments. By integrating reasoning with perception, memory, and tool use, agents are increasingly deployed in diverse domains like web navigation and household robotics. A critical challenge, however, lies in ensuring agent generalizability - the ability to maintain consistent performance across varied instructions, tasks, environments, and domains, especially those beyond agents' fine-tuning data. Despite growing interest, the concept of generalizability in LLM-based agents remains underdefined, and systematic approaches to measure and improve it are lacking. In this survey, we provide the first comprehensive review of generalizability in LLM-based agents. We begin by emphasizing agent generalizability's importance by appealing to stakeholders and clarifying the boundaries of agent generalizability by situating it within a hierarchical domain-task ontology. We then review datasets, evaluation dimensions, and metrics, highlighting their limitations. Next, we categorize methods for improving generalizability into three groups: methods for the backbone LLM, for agent components, and for their interactions. Moreover, we introduce the distinction between generalizable frameworks and generalizable agents and outline how generalizable frameworks can be translated into agent-level generalizability. Finally, we identify critical challenges and future directions, including developing standardized frameworks, variance- and cost-based metrics, and approaches that integrate methodological innovations with architecture-level designs. By synthesizing progress and highlighting opportunities, this survey aims to establish a foundation for principled research on building LLM-based agents that generalize reliably across diverse applications.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、テキスト生成から外部環境との動的相互作用までLLMの機能を拡張する新しいパラダイムとして登場した。
推論と知覚、記憶、ツールの使用を統合することで、エージェントはWebナビゲーションや家庭用ロボティクスといった様々な分野に展開されるようになっている。
しかし重要な課題は、エージェントの汎用性を保証することだ - さまざまな命令、タスク、環境、ドメイン、特にエージェントの微調整データを超えて、一貫性のあるパフォーマンスを維持する能力である。
関心が高まっているにもかかわらず、LLMベースのエージェントにおける一般化可能性の概念は未定義のままであり、それを測定し改善するための体系的なアプローチは欠如している。
本調査では, LLMをベースとしたエージェントの汎用性に関する総合的なレビューを行う。
まず、利害関係者にアピールすることでエージェントの一般化可能性の重要性を強調し、階層的なドメイン・タスクオントロジーの中でエージェントの一般化可能性の境界を明確にすることから始める。
次に、データセット、評価範囲、メトリクスをレビューし、その制限を強調します。
次に、一般化可能性を向上させる手法を3つのグループに分類する: バックボーンLLM法、エージェントコンポーネント法、およびそれらの相互作用法。
さらに、一般化可能なフレームワークと一般化可能なエージェントの区別を紹介し、一般化可能なフレームワークをエージェントレベルの一般化可能性に変換する方法について概説する。
最後に、標準化されたフレームワークの開発、分散とコストベースのメトリクス、そしてアーキテクチャレベルの設計と方法論的な革新を統合するアプローチなど、重要な課題と今後の方向性を特定します。
本研究は、進歩の合成と機会の強調により、多様なアプリケーションにまたがって確実に一般化されたLCMベースのエージェントの構築に関する原則研究の基礎を確立することを目的としている。
関連論文リスト
- The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [104.31926740841128]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。
本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。
私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文 参考訳(メタデータ) (2025-03-27T12:50:17Z) - A Survey on Trustworthy LLM Agents: Threats and Countermeasures [67.23228612512848]
大規模言語モデル(LLM)とマルチエージェントシステム(MAS)はLLMエコシステムの機能を大幅に拡張した。
本稿では,エージェントの信頼性に関する総合的研究であるTrustAgentフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-12T08:42:05Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - LLM-Agent-UMF: LLM-based Agent Unified Modeling Framework for Seamless Integration of Multi Active/Passive Core-Agents [0.0]
LLM-Agent-UMF(LLM-Agent-UMF)に基づく新しいエージェント統一モデリングフレームワークを提案する。
我々のフレームワークはLLMエージェントの異なるコンポーネントを区別し、LLMとツールを新しい要素であるコアエージェントから分離する。
我々は,13の最先端エージェントに適用し,それらの機能との整合性を実証することによって,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2024-09-17T17:54:17Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - Exploring Large Language Model based Intelligent Agents: Definitions,
Methods, and Prospects [32.91556128291915]
本稿では, シングルエージェントおよびマルチエージェントシステムにおける知的エージェントの詳細な概要を提供するため, 現在の研究状況について調査する。
定義、研究フレームワーク、その構成、認知と計画方法、ツール利用、環境フィードバックに対する反応などの基礎的な構成要素を網羅する。
我々は、AIと自然言語処理の進化の展望を考慮し、LLMベースのエージェントの展望を思い浮かべて結論付ける。
論文 参考訳(メタデータ) (2024-01-07T09:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。