論文の概要: Beyond Continuity: Challenges of Context Switching in Multi-Turn Dialogue with LLMs
- arxiv url: http://arxiv.org/abs/2605.09268v1
- Date: Sun, 10 May 2026 02:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.152097
- Title: Beyond Continuity: Challenges of Context Switching in Multi-Turn Dialogue with LLMs
- Title(参考訳): 連続性を超えて: LLMを用いた多言語対話におけるコンテキストスイッチングの課題
- Authors: Aditya Sinha, Harald Steck, Vito Ostuni, Matteo Rinaldi,
- Abstract要約: 大規模言語モデル(LLM)のマルチターン理解をストレステストする
ユーザが現在のターンにピボットするかリファインするかを検知し、前のターンから関連するコンテキストをショートリスト化する。
10LLMのゼロショット性能(オープンウェイト,クローズドソース,推論)を評価する。
- 参考スコア(独自算出の注目度): 6.89598705331814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Users interacting with Large Language Models (LLMs) in a multi-turn conversation routinely refine their requests or pivot to new topics. LLMs, however, often miss these topic shifts and carry over irrelevant context from previous turns, leading to inaccurate responses. In this paper, we stress-test the multi-turn understanding of LLMs and study the following two sub-tasks: (1) detecting whether the user pivots or refines in the current turn, and (2) shortlisting relevant context from previous turns. To this end, we construct synthetic benchmarks based on real-world datasets from varied domains, as to simulate context shifts of different levels of difficulty. We then evaluate the zero-shot performance of ten LLMs (open-weight, closed-source and reasoning), and demonstrate that only some reasoning and strongly instructed LLMs are accurate in detecting pivots; open-weight LLMs struggle with the task and frequently carry stale context even with explicit cues; and all models suffer from a position bias. Based on the results, we discuss key takeaways for improving long-term robustness in multi-turn capabilities for LLMs.
- Abstract(参考訳): マルチターン会話でLarge Language Models(LLM)と対話するユーザは、要求を定期的に洗練したり、新しいトピックにピボットしたりする。
しかし、LLMはしばしばこれらのトピックシフトを見逃し、前のターンから無関係なコンテキストを乗り越え、不正確な応答をもたらす。
本稿では,LLMのマルチターン理解をストレステストし,次の2つのサブタスクについて検討する。
そこで本研究では,様々な領域から得られた実世界のデータセットに基づく総合的ベンチマークを構築し,異なるレベルの難易度の文脈シフトをシミュレートする。
次に、10個のLLM(オープンウェイト、クローズドソース、推論)のゼロショット性能を評価し、ピボットの検出において、いくつかの推論と強く指示されたLLMのみが正確であることを示す。
この結果に基づいて,LLMのマルチターン機能における長期ロバスト性向上の要点について論じる。
関連論文リスト
- Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation [26.91734024759386]
根本原因は本質的な能力不足というよりも,意図的なアライメントギャップにある,と我々は主張する。
本稿では,Mediator-Assistantアーキテクチャによるタスク実行から意図的理解を分離することを提案する。
論文 参考訳(メタデータ) (2026-02-07T03:41:04Z) - LLMs Get Lost In Multi-Turn Conversation [44.26588510453331]
LLM(Large Language Models)は、対話型インタフェースである。
LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
論文 参考訳(メタデータ) (2025-05-09T15:21:44Z) - Position: Empowering Time Series Reasoning with Multimodal LLMs [49.73647759532127]
マルチモーダル言語モデル (MLLM) は時系列解析においてより強力で柔軟な推論を可能にすると論じる。
我々は、MLLMにおける信頼、解釈可能性、堅牢な推論を優先する戦略を開発することで、この可能性を活用するよう研究者や実践者に呼びかける。
論文 参考訳(メタデータ) (2025-02-03T16:10:48Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - MathChat: Benchmarking Mathematical Reasoning and Instruction Following in Multi-Turn Interactions [58.57255822646756]
本稿では,大規模言語モデル (LLM) を評価するためのベンチマークであるMathChatを紹介する。
我々は,MathChatベンチマーク上での様々なSOTA LLMの性能評価を行い,これらのモデルが単ターン質問応答において優れているが,より複雑なシナリオでは性能が著しく劣っていることを観察した。
我々は,LLMファインタニングのための合成対話に基づく数学データセットであるMathChat syncを開発した。
論文 参考訳(メタデータ) (2024-05-29T18:45:55Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [7.944123371140184]
本稿では,セマンティック・オーバーラップ・サマライゼーション(SOS)タスクのみを対象に,人気のあるLarge Language Models (LLM) のベンチマーク研究を行う。
このデータセットは、プライバシポリシのドキュメントから得られた135の高品質なSOSデータサンプルを提供する。
次に、TELeRと呼ばれる標準の分類法を用いて、2つのSOSデータセット上で905,216個のLCM生成サマリーを作成し、評価する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? [45.233517779029334]
応答が生成されたコンテキストと検索されたコンテキストに関連付けられているかどうかを識別する。
実験では、誤った情報を提供する場合でも、生成されたコンテキストを優先する複数のLSMにおいて、重大なバイアスが示される。
論文 参考訳(メタデータ) (2024-01-22T12:54:04Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。