論文の概要: LLMs Get Lost In Multi-Turn Conversation
- arxiv url: http://arxiv.org/abs/2505.06120v1
- Date: Fri, 09 May 2025 15:21:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.315567
- Title: LLMs Get Lost In Multi-Turn Conversation
- Title(参考訳): LLMはマルチスレッド会話で失われる
- Authors: Philippe Laban, Hiroaki Hayashi, Yingbo Zhou, Jennifer Neville,
- Abstract要約: LLM(Large Language Models)は、対話型インタフェースである。
LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
- 参考スコア(独自算出の注目度): 44.26588510453331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are conversational interfaces. As such, LLMs have the potential to assist their users not only when they can fully specify the task at hand, but also to help them define, explore, and refine what they need through multi-turn conversational exchange. Although analysis of LLM conversation logs has confirmed that underspecification occurs frequently in user instructions, LLM evaluation has predominantly focused on the single-turn, fully-specified instruction setting. In this work, we perform large-scale simulation experiments to compare LLM performance in single- and multi-turn settings. Our experiments confirm that all the top open- and closed-weight LLMs we test exhibit significantly lower performance in multi-turn conversations than single-turn, with an average drop of 39% across six generation tasks. Analysis of 200,000+ simulated conversations decomposes the performance degradation into two components: a minor loss in aptitude and a significant increase in unreliability. We find that LLMs often make assumptions in early turns and prematurely attempt to generate final solutions, on which they overly rely. In simpler terms, we discover that *when LLMs take a wrong turn in a conversation, they get lost and do not recover*.
- Abstract(参考訳): LLM(Large Language Models)は、対話型インタフェースである。
そのため、LLMは、手元のタスクを完全に指定できるだけでなく、マルチターンの会話交換を通じて必要なものを定義、探索、洗練する上でも、ユーザを支援することができる。
LLMの会話ログの分析では、ユーザ命令で不特定が頻繁に発生することが確認されているが、LLM評価は主に単一ターンで完全に特定された命令設定に重点を置いている。
本研究では,LLMの性能を1ターン,複数ターンで比較するための大規模シミュレーション実験を行った。
実験の結果, 最大オープンおよびクローズドウェイトLLMは, 6世代で平均39%の低下がみられ, マルチターン会話における性能が1ターンよりも著しく低下していることが確認された。
20,000以上のシミュレートされた会話の分析は、パフォーマンス劣化を2つのコンポーネントに分解する。
LLMは、しばしば早い段階で仮定を行い、早い段階で最終的な解を生成しようとするが、それらは過度に依存する。
単純な言い方をすれば、会話においてLLMが間違ったターンをとれば、彼らは失われ、回復しない。
関連論文リスト
- LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models [0.0]
大規模言語モデル(LLM)は、その誕生以来、様々な学術分野や産業分野にまたがって大きな注目を集めてきた。
LLMはしばしば「ハロシン化問題」に悩まされるが、出力は文法的にも論理的にも一貫性があり、事実の正確性に欠ける。
論文 参考訳(メタデータ) (2024-08-09T14:34:32Z) - Investigating Answerability of LLMs for Long-Form Question Answering [35.41413072729483]
実用的で影響力のある応用がいくつかあるので、長文質問応答(LFQA)に焦点を当てる。
本稿では,要約の要約から質問生成手法を提案し,長い文書の要約からフォローアップ質問を生成することで,困難な設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-09-15T07:22:56Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。