論文の概要: ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models
- arxiv url: http://arxiv.org/abs/2510.14077v1
- Date: Wed, 15 Oct 2025 20:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.610667
- Title: ERGO: Entropy-guided Resetting for Generation Optimization in Multi-turn Language Models
- Title(参考訳): ERGO:マルチターン言語モデルにおける生成最適化のためのエントロピー誘導リセット
- Authors: Haziq Mohammad Khalid, Athikash Jeyaganthan, Timothy Do, Yicheng Fu, Sean O'Brien, Vasu Sharma, Kevin Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、情報が漸進的に提示されるとき、多ターン会話において顕著なパフォーマンス劣化を被る。
本稿では,次のトークン分布に対するシャノンエントロピーによる内部不確かさの定量化を行うERGOを紹介する。
ERGOは言語とモデリングにおける可変性を採用し、不確実性を表現する。
- 参考スコア(独自算出の注目度): 9.509429747913519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) suffer significant performance degradation in multi-turn conversations when information is presented incrementally. Given that multi-turn conversations characterize everyday interactions with LLMs, this degradation poses a severe challenge to real world usability. We hypothesize that abrupt increases in model uncertainty signal misalignment in multi-turn LLM interactions, and we exploit this insight to dynamically realign conversational context. We introduce ERGO (Entropy-guided Resetting for Generation Optimization), which continuously quantifies internal uncertainty via Shannon entropy over next token distributions and triggers adaptive prompt consolidation when a sharp spike in entropy is detected. By treating uncertainty as a first class signal rather than a nuisance to eliminate, ERGO embraces variability in language and modeling, representing and responding to uncertainty. In multi-turn tasks with incrementally revealed instructions, ERGO yields a 56.6% average performance gain over standard baselines, increases aptitude (peak performance capability) by 24.7%, and decreases unreliability (variability in performance) by 35.3%, demonstrating that uncertainty aware interventions can improve both accuracy and reliability in conversational AI.
- Abstract(参考訳): 大規模言語モデル(LLM)は、情報が漸進的に提示される場合、多ターン会話において顕著なパフォーマンス劣化を被る。
マルチターン会話がLLMとの日常的な相互作用を特徴付けることを考えると、この劣化は現実世界のユーザビリティにとって深刻な課題となる。
我々は、マルチターンLDM相互作用におけるモデル不確実性信号の不一致の急激な増加を仮定し、この知見を動的に会話コンテキストに活用する。
ERGO(Entropy-guided Resetting for Generation Optimization)を導入し,次のトークン分布上でシャノンエントロピーを介して内部不確かさを連続的に定量化し,エントロピーの急激なスパイクを検出すると適応的なプロンプト・コンソリデーションをトリガーする。
不確実性を排除するためのニュアンスではなく、第一級信号として扱うことで、ERGOは言語とモデリングにおける可変性を受け入れ、不確実性を表現することと応答する。
インクリメンタルに説明されたマルチターンタスクでは、ERGOは標準ベースラインよりも56.6%の平均的なパフォーマンス向上を達成し、適性(ピークパフォーマンス能力)を24.7%向上し、信頼性(パフォーマンスの可変性)を35.3%低下させ、不確実な介入が会話AIの正確性と信頼性の両方を改善することを実証している。
関連論文リスト
- Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - Evaluating the Sensitivity of LLMs to Prior Context [2.377922603550519]
大規模言語モデル(LLM)は、多ターン対話やその他の持続的な対話シナリオにますます多くデプロイされている。
我々は,文脈変化に対する感度を測定するために,先行文脈のボリュームと性質を変化させる新しいベンチマークのセットを導入する。
その結果,複数質問に対するLLM性能は,多ターンインタラクションにおいて劇的に低下することがわかった。
論文 参考訳(メタデータ) (2025-05-29T16:09:32Z) - SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization [57.69385990442078]
大規模言語モデル(LLM)は、入力プロンプト(クエスト)にまたがる様々なレベルの信頼を示す。
セマンティックエントロピー(Semantic entropy)は、プロンプトが与えられた複数の生成された回答における意味の多様性を測定し、ポリシー更新の規模を変調するためにこれを使用する。
論文 参考訳(メタデータ) (2025-05-18T10:20:59Z) - Out of Style: RAG's Fragility to Linguistic Variation [29.59506089890902]
ユーザクエリは言語的なバリエーションが大きく、依存するRAGコンポーネント間のカスケードエラーを引き起こす可能性がある。
我々は,4つの言語的次元(形式性,可読性,丁寧性,文法的正しさ)がRAG性能に与える影響を分析する。
論文 参考訳(メタデータ) (2025-04-11T03:30:26Z) - Same Question, Different Words: A Latent Adversarial Framework for Prompt Robustness [9.208007322096535]
本稿では,2ループ対向フレームワークであるLatent Adversarial Paraphrasing (LAP)を提案する。
LAPは学習可能な摂動を訓練して「ラテント連続パラフレーズ」として機能させる
複数のLLMアーキテクチャにおけるLAPの有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-03-03T09:36:50Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。