論文の概要: Reasoning Gets Harder for LLMs Inside A Dialogue
- arxiv url: http://arxiv.org/abs/2603.20133v1
- Date: Fri, 20 Mar 2026 17:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.250208
- Title: Reasoning Gets Harder for LLMs Inside A Dialogue
- Title(参考訳): 会話中のLLMで推論が困難になる
- Authors: Ivan Kartáč, Mateusz Lango, Ondřej Dušek,
- Abstract要約: 大規模言語モデル(LLM)は多くの推論ベンチマークで高いパフォーマンスを達成する。
これらの評価は、通常、タスク指向対話(TOD)における現実の使い方とは異なる孤立したタスクに焦点を当てる。
このミスマッチは、ベンチマークパフォーマンスがTOD設定におけるモデルの推論ロバスト性を正確に反映しているかどうかという懸念を引き起こす。
- 参考スコア(独自算出の注目度): 3.0650578423160417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) achieve strong performance on many reasoning benchmarks, yet these evaluations typically focus on isolated tasks that differ from real-world usage in task-oriented dialogue (TOD). In this setting, LLMs must perform reasoning inherently while generating text and adhering to instructions on role, format, and style. This mismatch raises concerns about whether benchmark performance accurately reflects models' reasoning robustness in TOD setting. We investigate how framing reasoning tasks within TOD affects LLM performance by introducing BOULDER, a new dynamic benchmark covering eight travel-related tasks that require arithmetic, spatial, and temporal reasoning with both commonsense and formal aspects. Each problem is presented in both isolated and dialogue-based variants, enabling controlled comparison while mitigating data contamination. Experiments on eight LLMs reveal a substantial and consistent performance gap between isolated and dialogue settings. Through ablations and qualitative analysis, we show that this gap is largely driven by the multi-turn nature of dialogue, with additional effects from role conditioning and tool-use requirements. Our results highlight the need to evaluate LLM reasoning in realistic interactive scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの推論ベンチマークにおいて高いパフォーマンスを達成するが、これらの評価は通常、タスク指向対話(TOD)における実際の使用と異なる独立したタスクに焦点を当てる。
この設定では、LLMは、テキストを生成し、役割、形式、スタイルに関する指示に固執しながら、本質的に推論を行う必要がある。
このミスマッチは、ベンチマークパフォーマンスがTOD設定におけるモデルの推論ロバスト性を正確に反映しているかどうかという懸念を引き起こす。
ToD内でのフレーミング推論タスクがLLM性能にどのように影響するかを,コモンセンスと形式の両方で算術的・空間的・時間的推論を必要とする8つの旅行関連タスクをカバーする新しい動的ベンチマークであるBOULDERを導入することにより検討する。
各問題は孤立型と対話型の両方で示され、データ汚染を緩和しながら比較を制御できる。
8つのLDMの実験では、分離された設定と対話の設定の間には、実質的で一貫したパフォーマンスのギャップが示される。
アブレーションと質的分析により、このギャップは多ターンの対話の性質に大きく左右され、役割条件付けとツール使用要件の付加的な影響が示される。
本結果は,現実的な対話シナリオにおけるLLM推論の評価の必要性を強調した。
関連論文リスト
- LLM-Driven Multi-Turn Task-Oriented Dialogue Synthesis for Realistic Reasoning [6.96644195073436]
本研究では,現実的な推論シナリオに基づくタスク指向対話のためのフレームワークを開発する。
本手法は,実世界の情報に富んだタスクシナリオに基づく対話を生成する。
得られたデータセットは、大きな言語モデルの現実的な論理的推論能力を評価し、前進するための貴重なベンチマークとなる。
論文 参考訳(メタデータ) (2026-02-27T02:23:37Z) - Multi-Turn Puzzles: Evaluating Interactive Reasoning and Strategic Dialogue in LLMs [21.192619293355502]
大きな言語モデル(LLM)は、明確で完全なステートメントで問題を解決するのに優れています。
このベンチマークは、複雑でインタラクティブなシナリオを扱う上で、現在のLLMの長所と短所に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-08-13T19:14:45Z) - MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation [50.92800625083123]
大規模言語モデル(textbfLLMs)は現実世界の対話アプリケーションで広く採用されている。
MARS-Benchはプレイバイプレイのテキストコメンタリーから構築され、リアルな対話を特徴とする。
MARS-Bench の実験では、クローズドソース LLM がオープンソース代替よりも大幅に優れていることも明らかにされている。
論文 参考訳(メタデータ) (2025-05-27T10:28:04Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - LLM as a Scorer: The Impact of Output Order on Dialogue Evaluation [17.38671584773247]
本研究では,大規模言語モデル(LLM)を用いた対話評価における即時設計の効果について検討する。
理由と得点の順序はLLMのスコアに大きく影響し,「理性優先」アプローチによりより包括的評価が得られた。
論文 参考訳(メタデータ) (2024-06-05T02:25:10Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。