論文の概要: AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
- arxiv url: http://arxiv.org/abs/2505.16944v1
- Date: Thu, 22 May 2025 17:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.501822
- Title: AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios
- Title(参考訳): AgentIF:エージェントシナリオにおける大規模言語モデルのベンチマーク
- Authors: Yunjia Qi, Hao Peng, Xiaozhi Wang, Amy Xin, Youfeng Liu, Bin Xu, Lei Hou, Juanzi Li,
- Abstract要約: LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
- 参考スコア(独自算出の注目度): 51.46347732659174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated advanced capabilities in real-world agentic applications. Growing research efforts aim to develop LLM-based agents to address practical demands, introducing a new challenge: agentic scenarios often involve lengthy instructions with complex constraints, such as extended system prompts and detailed tool specifications. While adherence to such instructions is crucial for agentic applications, whether LLMs can reliably follow them remains underexplored. In this paper, we introduce AgentIF, the first benchmark for systematically evaluating LLM instruction following ability in agentic scenarios. AgentIF features three key characteristics: (1) Realistic, constructed from 50 real-world agentic applications. (2) Long, averaging 1,723 words with a maximum of 15,630 words. (3) Complex, averaging 11.9 constraints per instruction, covering diverse constraint types, such as tool specifications and condition constraints. To construct AgentIF, we collect 707 human-annotated instructions across 50 agentic tasks from industrial application agents and open-source agentic systems. For each instruction, we annotate the associated constraints and corresponding evaluation metrics, including code-based evaluation, LLM-based evaluation, and hybrid code-LLM evaluation. We use AgentIF to systematically evaluate existing advanced LLMs. We observe that current models generally perform poorly, especially in handling complex constraint structures and tool specifications. We further conduct error analysis and analytical experiments on instruction length and meta constraints, providing some findings about the failure modes of existing LLMs. We have released the code and data to facilitate future research.
- Abstract(参考訳): LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
エージェントシナリオは、拡張されたシステムプロンプトや詳細なツール仕様など、複雑な制約を伴う長い命令を含むことが多い。
このような命令への従順性はエージェントアプリケーションにとって重要であるが、LSMがそれらを確実に追従できるかどうかは未解明のままである。
本稿では,エージェントシナリオにおけるLLM命令追従能力の体系的評価を行う最初のベンチマークであるAgentIFを紹介する。
AgentIFには3つの重要な特徴がある。
(2)長文平均語数は1,723語で最大15,630語である。
ツール仕様や条件制約など,さまざまな制約タイプをカバーする。
AgentIFを構築するために,産業アプリケーションエージェントやオープンソースエージェントシステムから,50のエージェントタスクに対して707の人手による指示を収集する。
各命令に対して,コードに基づく評価,LLMに基づく評価,ハイブリッドコード-LLM評価など,関連する制約とそれに対応する評価指標をアノテートする。
我々はAgentIFを用いて既存の高度なLCMを体系的に評価する。
現在のモデルでは、特に複雑な制約構造やツール仕様を扱う場合、一般的にはパフォーマンスが悪くなっています。
さらに,命令長とメタ制約に関する誤り解析と解析実験を行い,既存のLLMの故障モードについていくつかの知見を得た。
将来の研究を促進するために、コードとデータをリリースしました。
関連論文リスト
- Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。
自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文 参考訳(メタデータ) (2025-05-13T23:47:12Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model [15.558269067931374]
オープンなエンボディタスクのための階層的知識蒸留フレームワークであるSTEVE-2を提案する。
蒸留後、実施エージェントは専門的なガイダンスなしで複雑なオープンエンドタスクを完了することができる。
論文 参考訳(メタデータ) (2024-04-06T12:51:00Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - Agent Lumos: Unified and Modular Training for Open-Source Language Agents [89.78556964988852]
LUMOSは、オープンソースのLLMベースのエージェントをトレーニングするための最初のフレームワークの1つです。
LUMOSは、高レベルなサブゴール生成を学習する計画モジュールを備えた、学習可能で統一されたモジュラーアーキテクチャを備えている。
我々は、多様な地道理理性から導かれた大規模で統一的で高品質なトレーニングアノテーションを収集する。
論文 参考訳(メタデータ) (2023-11-09T00:30:13Z) - Formally Specifying the High-Level Behavior of LLM-Based Agents [24.645319505305316]
LLMはタスク固有の微調整モデルを必要とせずに、課題を解決するための有望なツールとして登場した。
現在、このようなエージェントの設計と実装はアドホックであり、LLMベースのエージェントが自然に適用できる様々なタスクは、エージェント設計に一律に適合するアプローチが存在しないことを意味する。
エージェント構築のプロセスを簡単にする最小主義的生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-12T17:24:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。