論文の概要: Found in Conversation: LLMs Teach Themselves to Close the Multi-Turn Gap
- arxiv url: http://arxiv.org/abs/2605.24432v1
- Date: Sat, 23 May 2026 06:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.053694
- Title: Found in Conversation: LLMs Teach Themselves to Close the Multi-Turn Gap
- Title(参考訳): 会話の場:LLMがマルチトゥルンギャップの閉鎖をテーマに
- Authors: Tianlang Chen, Shirley Wu, Jure Leskovec,
- Abstract要約: モデルがシングルターン能力の発見と回復を自ら教えるトレーニングフレームワークであるFound in Conversationを紹介した。
教師のシングルターンビュー, 生徒のマルチターンビュー, 強いシングルターン動作を弱いマルチターン動作に変換する。
モデルファミリ(Llama、Qwen、Phi、OLMo)では、FiCはシングルターンのパフォーマンスの少なくとも92%を回復し、2つのLlamaバックボーン上で100%に達する。
- 参考スコア(独自算出の注目度): 51.23637310487053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) interactions are typically underspecified, with users clarifying all necessary details across multiple conversational turns. Yet recent work shows that LLMs perform far worse in this multi-turn setting than in a single turn with same information being available at once, a phenomenon termed "Lost-in-Conversation." However, bridging this gap effectively remains an open problem. Here we introduce Found in Conversation (FiC), a training framework where a model teaches itself to find and recover its single-turn competence given underspecified multi-turn prompts. We develop View-Asymmetric Self-Distillation, which distills across two views of the same task information--single-turn view for the teacher, multi-turn view for the student--transferring strong single-turn behavior into weak multi-turn behavior. This requires no stronger external teacher, which is unavailable as even frontier LLMs exhibit this gap. Across model families (Llama, Qwen, Phi, and OLMo) and sizes (3B-14B), FiC recovers at least 92% of single-turn performance and reaches 100% on two Llama backbones, yielding more efficient and helpful multi-turn conversations with single-turn capabilities intact.
- Abstract(参考訳): 大規模言語モデル(LLM)の相互作用は、通常不特定であり、ユーザーは複数の会話のターンで必要な詳細をすべて明らかにする。
しかし、近年の研究では、LLMは一度に同じ情報が得られる1ターンよりも、このマルチターン設定の方がはるかに悪いことが示されており、これは"Lost-in-Conversation"と呼ばれる現象である。
しかし、このギャップを効果的に埋めることは未解決の問題である。
本稿では,不特定なマルチターンプロンプトに対して,モデルがシングルターン能力の発見と回復を指導するトレーニングフレームワークであるFound in Conversation(FiC)を紹介する。
本研究では,教師のためのシングルターンビュー,学生のためのマルチターンビュー,強力なシングルターン動作を弱いマルチターン動作に伝達するビュー非対称自己蒸留を開発する。
これは、より強い外部教師は必要とせず、フロンティアのLLMでさえこのギャップを示すため、利用できない。
モデルファミリ(Llama, Qwen, Phi, OLMo)とサイズ(3B-14B)にわたって、FiCはシングルターン性能の少なくとも92%を回復し、2つのLlamaバックボーン上で100%に達する。
関連論文リスト
- TurnWise: The Gap between Single- and Multi-turn Language Model Capabilities [57.865325277036455]
我々は、シングルターンチャット評価と直接比較できるマルチターン機能のための新しいベンチマークであるTurnWiseEvalを導入する。
また、マルチターントレーニングデータのスケーラブルな生成を可能にする合成マルチターンデータパイプラインであるTurnWiseDataについても紹介する。
Olmo 3 を用いた実験により,マルチターンデータによるトレーニングが,マルチターンチャットの性能向上に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:40:35Z) - Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation [26.91734024759386]
根本原因は本質的な能力不足というよりも,意図的なアライメントギャップにある,と我々は主張する。
本稿では,Mediator-Assistantアーキテクチャによるタスク実行から意図的理解を分離することを提案する。
論文 参考訳(メタデータ) (2026-02-07T03:41:04Z) - MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model [57.89395815934156]
Multi-Turn Contrastive Learning (MuCo)は、このプロセスを再考する対話にインスパイアされたフレームワークである。
新たな5Mマルチモーダルマルチターンデータセット(M3T)による MuCo の表示実験
論文 参考訳(メタデータ) (2026-02-06T05:18:33Z) - A Simple "Try Again" Can Elicit Multi-Turn LLM Reasoning [58.80217284841095]
マルチターン問題解決は、大規模な推論モデル(LRM)が彼らの推論を反映し、フィードバックから修正する上で非常に難しい。
既存の強化学習(RL)手法は、検証可能な報酬で1ターンのパラダイム上で大きな推論モデルを訓練する。
我々は,反復的問題解決において,最小限の単一ユーザフィードバックを利用する強化学習のためのUnary Feedback as Observation (UFO)を紹介した。
論文 参考訳(メタデータ) (2025-07-18T18:07:38Z) - LLMs Get Lost In Multi-Turn Conversation [44.26588510453331]
LLM(Large Language Models)は、対話型インタフェースである。
LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
論文 参考訳(メタデータ) (2025-05-09T15:21:44Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - Retrospective Learning from Interactions [18.5871047885934]
ReSpectは、アノテーションを追加することなく、振り返りを通じて過去のインタラクションでそのような信号から学習する手法である。
外部アノテーションなしでReSpectがタスク完了率を31%から82%に改善したことを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:03Z) - Few-shot Partial Multi-view Learning [103.33865779721458]
本稿では,複数ショット部分的多視点学習という新しい課題を提案する。
それは、低データ体制におけるビューミス問題によるネガティブな影響を克服することに焦点を当てている。
提案手法を評価するため,広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-05-05T13:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。