論文の概要: One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework
- arxiv url: http://arxiv.org/abs/2511.03508v1
- Date: Wed, 05 Nov 2025 14:39:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.449544
- Title: One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework
- Title(参考訳): 次なる戦い: LLMsのマルチTurnインストラクションに関する制限の検証とベンチマーク進化フレームワーク
- Authors: Qi Jia, Kaiwei Zhang, Xiujie Song, Ye Shen, Xiangyang Zhu, Guangtao Zhai,
- Abstract要約: 大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 51.50565654314582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how well large language models can follow users' instructions throughout a dialogue spanning multiple topics is of great importance for data-intensive conversational applications. Existing benchmarks are often limited to a fixed number of turns, making them susceptible to saturation and failing to account for the user's interactive experience. In this work, we propose an extensible framework for assessing multi-turn instruction-following ability. At its core, our framework decouples linguistic surface forms from user intent simulation through a three-layer mechanism that tracks constraints, instructions, and topics. This framework mimics User-LLM interaction by enabling the dynamic construction of benchmarks with state changes and tracebacks, terminating a conversation only when the model exhausts a simulated user's patience. We define a suite of metrics capturing the quality of the interaction process. Using this framework, we construct EvolIF, an evolving instruction-following benchmark incorporating nine distinct constraint types. Our results indicate that GPT-5 exhibits superior instruction-following performance. It sustains an average of 18.54 conversational turns and demonstrates 70.31% robustness, outperforming Gemini-2.5-Pro by a significant margin of 11.41%, while other models lag far behind. All of the data and code will be made publicly available online.
- Abstract(参考訳): 複数のトピックにまたがる対話を通して、大きな言語モデルがどのようにユーザーの指示に従うことができるかを理解することは、データ集約的な会話アプリケーションにとって非常に重要である。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
本研究では,マルチターン命令追従能力を評価するための拡張可能なフレームワークを提案する。
本フレームワークは,言語表面の形状をユーザ意図のシミュレーションから,制約や指示,トピックを追跡する3層機構を通じて分離する。
このフレームワークは、状態変化とトレースバックを伴うベンチマークを動的に構築し、モデルがシミュレーションされたユーザの忍耐を消した時にのみ会話を終了することにより、ユーザとLLMのインタラクションを模倣する。
インタラクションプロセスの品質を計測する一連のメトリクスを定義します。
このフレームワークを用いて,9つの制約型を組み込んだ命令追従ベンチマークであるEvolIFを構築した。
以上の結果から, GPT-5は命令追従性能に優れていたことが示唆された。
平均18.54回転を保ち、70.31%の頑健さを示し、ジェミニ2.5-Proを11.41%で上回り、他のモデルははるかに遅れている。
すべてのデータとコードはオンラインで公開されます。
関連論文リスト
- RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [133.0641538589466]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - A Framework for Generating Conversational Recommendation Datasets from Behavioral Interactions [2.0693204407592836]
ConvRecStudioは、リアルタイムなマルチターンダイアログをシミュレートするフレームワークで、タイムスタンプによるユーザとイテムのインタラクションとレビューに基礎を置いている。
我々は、MobileRec、Yelp、Amazon Electronicsの3つのドメインにConvRecStudioを適用する。
論文 参考訳(メタデータ) (2025-06-14T22:58:48Z) - ConsistentChat: Building Skeleton-Guided Consistent Multi-Turn Dialogues for Large Language Models from Scratch [79.12929103519922]
Skeleton-Guided Multi-Turn Dialogue Generationは、人間の意図を明示的にモデル化することで、マルチターン命令合成を制約する。
約15,000のマルチターン会話と224,392の発話を持つマルチターン命令データセットであるConsistentChatを構築した。
Light, Topdial, MT-Evalベンチマークの実験では、ConsistentChatで微調整されたモデルでは、チャットの一貫性が20~30%向上し、タスクの成功率が15%向上している。
論文 参考訳(メタデータ) (2025-06-04T04:21:48Z) - A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models [48.361839372110246]
本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。
我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。
詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
論文 参考訳(メタデータ) (2025-05-12T14:16:55Z) - Interaction2Code: Benchmarking MLLM-based Interactive Webpage Code Generation from Interactive Prototyping [57.024913536420264]
MLLM(Multimodal Large Language Models)は、設計からコードへのタスクにおいて顕著な性能を示す。
本稿では,インタラクティブなWebページを生成する上で,MLLMを初めて体系的に研究する。
論文 参考訳(メタデータ) (2024-11-05T17:40:03Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。