論文の概要: TOD-ProcBench: Benchmarking Complex Instruction-Following in Task-Oriented Dialogues
- arxiv url: http://arxiv.org/abs/2511.15976v1
- Date: Thu, 20 Nov 2025 02:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.425948
- Title: TOD-ProcBench: Benchmarking Complex Instruction-Following in Task-Oriented Dialogues
- Title(参考訳): TOD-ProcBench:タスク指向対話における複合命令のベンチマーク
- Authors: Sarik Ghazarian, Abhinav Gullapalli, Swair Shah, Anurag Beniwal, Nanyun Peng, Narayanan Sadagopan, Zhou Yu,
- Abstract要約: 現実世界のタスク指向対話(TOD)では、エージェントは複雑な命令に厳密に従わなければならない。
既存のTODベンチマークはしばしばこれらの命令の複雑な性質を単純化する。
複雑できめ細かい制約を持つ複雑なプロセス命令を特徴とするベンチマークTOD-ProcBenchを提案する。
- 参考スコア(独自算出の注目度): 42.22263009001713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world task-oriented dialogue (TOD) settings, agents are required to strictly adhere to complex instructions while conducting multi-turn conversations with customers. These instructions are typically presented in natural language format and include general guidelines and step-by-step procedures with complex constraints. Existing TOD benchmarks often oversimplify the complex nature of these instructions by reducing them to simple schemas composed of intents, slots, and API call configurations. To address this gap and systematically benchmark LLMs' instruction-following capabilities, we propose TOD-ProcBench, a challenging benchmark featuring complex process instructions with intricate, fine-grained constraints that evaluates various LLMs' abilities to understand and follow instructions in multi-turn TODs. Our benchmark dataset comprises instruction documents derived from the high-quality ABCD dataset with corresponding conversations under human quality control. We formulate fine-grained constraints and action procedures as multi-level condition-action instruction statements. We design three tasks to comprehensively benchmark LLMs' complex instruction-following capabilities in multi-turn TODs. Task 1 evaluates how LLMs retrieve the most relevant statement from a complex instruction and predict the corresponding next action. In Task 2, we synthesize instruction-violating responses by injecting inconsistencies and manipulating the original instructions, and then we analyze how effectively LLMs can identify instruction-violating responses. Task 3 investigates LLMs' abilities in conditional generation of instruction-following responses based on the original complex instructions. Additionally, we conduct studies on the impact of multilingual settings and different instruction text formats on compliance performance. We release our benchmark under the Llama 3.3 Community License Agreement.
- Abstract(参考訳): 実世界のタスク指向対話(TOD)では、エージェントは顧客とのマルチターン会話をしながら、複雑な指示に厳格に従わなければならない。
これらの命令は典型的には自然言語形式で表示され、一般的なガイドラインや複雑な制約のあるステップバイステップの手順を含む。
既存のTODベンチマークは、インテント、スロット、APIコール構成からなる単純なスキーマに還元することで、これらの命令の複雑な性質を単純化することが多い。
このギャップに対処し、LLMの命令追従能力を体系的にベンチマークするために、複雑なプロセス命令に複雑な制約を課し、マルチターンTODにおける命令を理解し、従う様々なLLMの能力を評価する挑戦的なベンチマークTOD-ProcBenchを提案する。
本ベンチマークデータセットは,人間の品質管理下での会話を伴う高品質なABCDデータセットから導出された命令文書から構成される。
多段階条件対応命令文として細粒度制約と動作手順を定式化する。
マルチターンTODにおけるLCMの複雑な命令追従能力を総合的にベンチマークする3つのタスクを設計する。
タスク1は、LLMが複雑な命令から最も関連性の高いステートメントを検索し、対応する次のアクションを予測する方法を評価する。
タスク2では、不整合を注入し、元の命令を操作することによって、命令違反応答を合成し、LLMがいかに効果的に命令違反応答を識別できるかを分析する。
タスク3は、元の複雑な命令に基づいて、命令追従応答の条件付き生成におけるLLMの能力について検討する。
さらに、多言語設定と異なる命令テキスト形式がコンプライアンス性能に与える影響について検討する。
ベンチマークをLlama 3.3 Community License Agreementでリリースしています。
関連論文リスト
- Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。