論文の概要: CCTU: A Benchmark for Tool Use under Complex Constraints
- arxiv url: http://arxiv.org/abs/2603.15309v1
- Date: Mon, 16 Mar 2026 14:05:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.415753
- Title: CCTU: A Benchmark for Tool Use under Complex Constraints
- Title(参考訳): CCTU: 複雑な制約下でのツール使用のベンチマーク
- Authors: Junjie Ye, Guoqiang Zhang, Wenjie Fu, Tao Gui, Qi Zhang, Xuanjing Huang,
- Abstract要約: 複雑な制約下での大規模言語モデル(LLM)を評価するためのベンチマークであるCCTUを紹介する。
ベンチマークは、さまざまなツール使用シナリオに対して、慎重にキュレートされ、挑戦的なテストケースが200から成っている。
ステップレベルの検証を行い、コンプライアンスを強制する実行可能な制約検証モジュールを開発する。
- 参考スコア(独自算出の注目度): 66.87622847854337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving problems through tool use under explicit constraints constitutes a highly challenging yet unavoidable scenario for large language models (LLMs), requiring capabilities such as function calling, instruction following, and self-refinement. However, progress has been hindered by the absence of dedicated evaluations. To address this, we introduce CCTU, a benchmark for evaluating LLM tool use under complex constraints. CCTU is grounded in a taxonomy of 12 constraint categories spanning four dimensions (i.e., resource, behavior, toolset, and response). The benchmark comprises 200 carefully curated and challenging test cases across diverse tool-use scenarios, each involving an average of seven constraint types and an average prompt length exceeding 4,700 tokens. To enable reliable evaluation, we develop an executable constraint validation module that performs step-level validation and enforces compliance during multi-turn interactions between models and their environments. We evaluate nine state-of-the-art LLMs in both thinking and non-thinking modes. Results indicate that when strict adherence to all constraints is required, no model achieves a task completion rate above 20%. Further analysis reveals that models violate constraints in over 50% of cases, particularly in the resource and response dimensions. Moreover, LLMs demonstrate limited capacity for self-refinement even after receiving detailed feedback on constraint violations, highlighting a critical bottleneck in the development of robust tool-use agents. To facilitate future research, we release the data and code.
- Abstract(参考訳): ツールの使用による問題を明示的な制約の下で解決することは、大きな言語モデル(LLM)にとって非常に困難だが避けられないシナリオであり、関数呼び出し、命令追従、自己修正などの機能を必要とする。
しかし、専用の評価がないため、進歩は妨げられている。
これを解決するために,複雑な制約の下でLLMツールの使用を評価するベンチマークであるCCTUを紹介する。
CCTUは、4次元(資源、行動、ツールセット、応答)にまたがる12の制約カテゴリーの分類に根ざしている。
ベンチマークは、さまざまなツール使用シナリオにまたがる200の厳格なキュレーションと挑戦的なテストケースで構成され、それぞれ平均7つの制約タイプと平均4,700トークンを超えるプロンプトの長さを含む。
信頼性の高い評価を実現するため,ステップレベルの検証を行い,モデルと環境間のマルチターンインタラクションにおいてコンプライアンスを実施する,実行可能な制約検証モジュールを開発した。
我々は、思考モードと非思考モードの両方において、最先端のLLMを9つ評価した。
結果は、すべての制約に厳格に固執する必要がある場合、モデルが20%を超えるタスク完了率を達成することはないことを示している。
さらに分析した結果、モデルが50%以上のケース、特に資源と応答の次元で制約に違反していることが判明した。
さらに、LSMは制約違反に関する詳細なフィードバックを受けた後も、自己抑止能力の限界を示し、堅牢なツール利用エージェントの開発において重要なボトルネックを浮き彫りにした。
今後の研究を容易にするため、私たちはデータとコードを公開します。
関連論文リスト
- OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - A Hierarchical and Evolvable Benchmark for Fine-Grained Code Instruction Following with Multi-Turn Feedback [30.446511584123492]
大規模言語モデル(LLM)はコード生成において著しく進歩しているが、階層化され多様な制約を持つ複雑なプログラミング命令に従う能力はいまだ探索されていない。
複数次元にわたるコード生成における命令追従の評価を目的とした総合ベンチマークであるMultiCodeIFを紹介する。
我々は14のプログラミング言語から得られた2,021のコードタスクを合成し、進化させ、フィードバック駆動型タスク変種によるマルチターン評価をサポートする。
論文 参考訳(メタデータ) (2025-07-01T11:51:40Z) - RECAST: Expanding the Boundaries of LLMs' Complex Instruction Following with Multi-Constraint Data [47.19854998380304]
RECASTは、既存のベンチマークよりもはるかに多くの制約のあるデータセットを合成するための効率的なフレームワークである。
我々は、19の制約型にまたがる30kインスタンスからなる大規模で高品質なデータセットであるRECAST-30Kを構築した。
実験の結果、RECAST-30Kで微調整されたモデルでは、複雑な命令に従うと大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-05-25T08:31:08Z) - AGENTIF: Benchmarking Instruction Following of Large Language Models in Agentic Scenarios [51.46347732659174]
LLM(Large Language Models)は、現実世界のエージェントアプリケーションにおいて高度な機能を示す。
AgentIFは、エージェントシナリオでLLM命令に従う能力を体系的に評価する最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T17:31:10Z) - A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models [48.361839372110246]
本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。
我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。
詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
論文 参考訳(メタデータ) (2025-05-12T14:16:55Z) - The Ability of Large Language Models to Evaluate Constraint-satisfaction in Agent Responses to Open-ended Requests [0.6249768559720121]
我々は,新しいArithmetic Constraint-Satisfaction(ACS)ベンチマークデータセットを開発し,リリースする。
このデータセットは、対応する制約を持つ複雑なユーザリクエスト、エージェント応答、応答における各制約の満足度を示すヒューマンラベルで構成されている。
ほとんどのモデルにはまだ改善のための重要なヘッドルームがあることを示し、エラーは主に推論の問題に起因する。
論文 参考訳(メタデータ) (2024-09-22T09:27:42Z) - From Instructions to Constraints: Language Model Alignment with
Automatic Constraint Verification [70.08146540745877]
NLPタスクの共通制約を調査し、それらの引数の型に基づいて、それらを3つのクラスに分類する。
本稿では,ACT(ConsTraintsのアラインメント)という統合フレームワークを提案し,制約に適応したユーザアライメントのための監視信号を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-10T22:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。