論文の概要: SEQUOR: A Multi-Turn Benchmark for Realistic Constraint Following
- arxiv url: http://arxiv.org/abs/2605.06353v1
- Date: Thu, 07 May 2026 14:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.907696
- Title: SEQUOR: A Multi-Turn Benchmark for Realistic Constraint Following
- Title(参考訳): SEQUOR: リアリスティック制約追従のためのマルチTurnベンチマーク
- Authors: Beatriz Canaverde, Duarte M. Alves, José Pombal, Giuseppe Attanasio, André F. T. Martins,
- Abstract要約: 長時間のマルチターン会話における制約適合性を評価するための自動ベンチマークSEQUORを提案する。
その結果,1つの制約に従えば,会話が長くなるにつれて命令追従精度は一貫して低下することがわかった。
会話の任意のポイントで制約を追加したり置き換えたりするシナリオでは、モデルの精度は9%以上低下する。
- 参考スコア(独自算出の注目度): 26.137364205107005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a conversation, a helpful assistant must reliably follow user directives, even as they refine, modify, or contradict earlier requests. Yet most instruction-following benchmarks focus on single-turn or short multi-turn scenarios, leaving open how well models handle long-horizon instruction-following tasks. To bridge this gap, we present SEQUOR, an automatic benchmark for evaluating constraint adherence in long multi-turn conversations. SEQUOR consists of simulated persona-driven interactions built with constraints extracted from real-world conversations. Our results show that even when following a single constraint, instruction-following accuracy consistently decreases as the conversation grows longer, with drops exceeding 11%. This decline becomes larger when models have to follow multiple constraints simultaneously, reducing their accuracy by over 40%. In scenarios where constraints are added or replaced at arbitrary points of the conversation, model accuracy decreases by more than 9%. Taken together, our results reveal that current models still struggle to follow user instructions in multi-turn conversations, and provide a way for better measuring instruction-following capabilities in assistants.
- Abstract(参考訳): 会話では、アシスタントは、以前の要求を洗練、修正、あるいは矛盾させたとしても、確実にユーザー指示に従う必要がある。
しかし、ほとんどのインストラクション追従ベンチマークはシングルターンやショートマルチターンのシナリオに重点を置いており、ロングホライゾン命令追従タスクの処理方法がオープンになっている。
このギャップを埋めるために、長いマルチターン会話における制約順性を評価するための自動ベンチマークSEQUORを提案する。
SEQUORは、現実世界の会話から抽出された制約で構築されたシミュレーションされたペルソナ駆動インタラクションで構成されている。
その結果,1つの制約に従えば,会話が長くなるにつれて,命令追従精度は一貫して低下し,11%以上の低下がみられた。
この減少は、モデルが複数の制約を同時に従わなければならない場合に大きくなり、精度を40%以上削減する。
会話の任意のポイントで制約を追加したり置き換えたりするシナリオでは、モデルの精度は9%以上低下する。
この結果から,現在のモデルでは,マルチターン会話におけるユーザ指示の追従に苦慮していることが明らかとなった。
関連論文リスト
- CCTU: A Benchmark for Tool Use under Complex Constraints [66.87622847854337]
複雑な制約下での大規模言語モデル(LLM)を評価するためのベンチマークであるCCTUを紹介する。
ベンチマークは、さまざまなツール使用シナリオに対して、慎重にキュレートされ、挑戦的なテストケースが200から成っている。
ステップレベルの検証を行い、コンプライアンスを強制する実行可能な制約検証モジュールを開発する。
論文 参考訳(メタデータ) (2026-03-16T14:05:13Z) - Did You Forget What I Asked? Prospective Memory Failures in Large Language Models [0.0]
大規模な言語モデルは、必要なタスクを同時に実行する必要があるときに、フォーマット命令を満たさないことが多い。
制御パラダイムを用いて、認知心理学から先進記憶にインスパイアされたレンズを通して、この行動を研究する。
脆弱性は型に依存しやすく、50%まで低下する一方、回避制約は比較的堅牢である。
サリエンス強化フォーマット(明示的な命令フレーミングと後続のリマインダー)は、多くの設定で性能を90-100%に回復する。
論文 参考訳(メタデータ) (2026-03-07T05:58:19Z) - Do LLMs Benefit From Their Own Words? [56.73014497206615]
先行するアシスタント応答の除去は,少数のターンにおいて応答品質に影響を与えないことがわかった。
アシスタント側コンテキストのオミッティングは、累積コンテキストの長さを最大10倍に減らすことができる。
本研究は, 記憶量削減を図り, アシスタント履歴を選択的に省略することで, 応答品質を向上できることを示唆する。
論文 参考訳(メタデータ) (2026-02-27T18:58:26Z) - When Is Enough Not Enough? Illusory Completion in Search Agents [56.98225130959051]
検索エージェントが、複数の条件をトラッキングし、検証し、維持することで、すべての要件に対して確実に理性性を持たせるかどうかを調査する。
エージェントは、未解決の制約や違反の制約にもかかわらずタスクが完了したと信じており、未検証の回答につながる。
我々は、実行中の明示的な制約状態追跡が、推論時トラッカーであるLiveLedgerを介してこれらの障害を緩和するかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-07T13:50:38Z) - On the Paradoxical Interference between Instruction-Following and Task Solving [50.75960598434753]
次の命令は、大規模言語モデル(LLM)を、タスクの実行方法に関する明示的な制約を指定することで、人間の意図と整合させることを目的としている。
我々は,LLMのタスク解決能力にパラドックス的に干渉する命令に従うという,直感に反する現象を明らかにした。
本稿では,タスク解決に追従する命令の干渉を定量化する指標として,SUSTAINSCOREを提案する。
論文 参考訳(メタデータ) (2026-01-29T17:48:56Z) - Quantifying Laziness, Decoding Suboptimality, and Context Degradation in Large Language Models [0.4511923587827302]
大規模言語モデル(LLM)は、遅延性、復号化部分最適化、文脈劣化などの振る舞いのアーチファクトを示すことが多い。
以上の結果から, 複雑な多部命令を満足する上で, 広範囲な怠け度が示唆された。
遅延を減らし、マルチインストラクションコンプライアンスを強化する戦略を提案する。
論文 参考訳(メタデータ) (2025-12-19T03:01:59Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - Self-Consistency as a Free Lunch: Reducing Hallucinations in Vision-Language Models via Self-Reflection [71.8243083897721]
視覚言語モデルは、しばしば詳細を幻覚させ、既存のオブジェクトを生成するか、出力信頼性を損なう不正確な属性を生成する。
本稿では、長文応答と短文応答の自己整合性を利用して、学習のための選好ペアを生成する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:37:11Z) - TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。