論文の概要: Quantifying Laziness, Decoding Suboptimality, and Context Degradation in Large Language Models
- arxiv url: http://arxiv.org/abs/2512.20662v1
- Date: Fri, 19 Dec 2025 03:01:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.546805
- Title: Quantifying Laziness, Decoding Suboptimality, and Context Degradation in Large Language Models
- Title(参考訳): 大規模言語モデルにおける遅延の定量化, 部分最適化の復号化, 文脈劣化
- Authors: Yiqing Ma, Jung-Hua Liu,
- Abstract要約: 大規模言語モデル(LLM)は、遅延性、復号化部分最適化、文脈劣化などの振る舞いのアーチファクトを示すことが多い。
以上の結果から, 複雑な多部命令を満足する上で, 広範囲な怠け度が示唆された。
遅延を減らし、マルチインストラクションコンプライアンスを強化する戦略を提案する。
- 参考スコア(独自算出の注目度): 0.4511923587827302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often exhibit behavioral artifacts such as laziness (premature truncation of responses or partial compliance with multi-part requests), decoding suboptimality (failure to select higher-quality sequences due to myopic decoding), and context degradation (forgetting or ignoring core instructions over long conversations). We conducted three controlled experiments (A, B, and C) to quantify these phenomena across several advanced LLMs (OpenAI GPT-4 variant, DeepSeek). Our results indicate widespread laziness in satisfying complex multi-part instructions: models frequently omitted required sections or failed to meet length requirements despite explicit prompting. However, we found limited evidence of decoding suboptimality in a simple reasoning task (the models' greedy answers appeared to align with their highest-confidence solution), and we observed surprising robustness against context degradation in a 200-turn chaotic conversation test - the models maintained key facts and instructions far better than expected. These findings suggest that while compliance with detailed instructions remains an open challenge, modern LLMs may internally mitigate some hypothesized failure modes (such as context forgetting) in straightforward retrieval scenarios. We discuss implications for reliability, relate our findings to prior work on instruction-following and long-context processing, and recommend strategies (such as self-refinement and dynamic prompting) to reduce laziness and bolster multi-instruction compliance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、遅延性(応答の早期停止や複数部分要求への部分的コンプライアンス)、復号化(ミオピック復号による高品質なシーケンスの選択が不可能)、文脈劣化(長い会話における中核的な命令の偽造や無視)などの行動的成果物を示すことが多い。
我々はこれらの現象をいくつかの先進LDM(OpenAI GPT-4 variant, DeepSeek)で定量化するために3つの制御実験(A, B, C)を行った。
以上の結果から,複雑な多部命令を満足する上での怠慢が顕著であった: モデルは要求区間を省略したり,明示的なプロンプトにもかかわらず長所要求を満たしなかったりすることも多い。
しかし、単純な推論タスク(モデルの欲求回答は、最も信頼度の高い解と一致しているように見える)において、最適部分の復号化の証拠は限られており、200ターンのカオス会話テストにおける文脈劣化に対する驚くべき堅牢性 - モデルは、予想よりもはるかに重要な事実と指示を維持していた。
これらの結果は、詳細な命令の遵守は依然としてオープンな課題であるが、現代のLCMは、単純な検索シナリオにおいて、仮説化された障害モード(コンテキストを忘れるなど)を内部的に緩和する可能性があることを示唆している。
本稿では,信頼性の重要さを論じ,命令追従処理と長文処理の先行研究に関連付けるとともに,遅延の低減とマルチインストラクションコンプライアンスの強化を図るための戦略(自己抑制や動的プロンプトなど)を推奨する。
関連論文リスト
- Decomposition-Enhanced Training for Post-Hoc Attributions In Language Models [64.49342399229529]
我々は、ポストホック帰属を推論問題として再編成し、回答を構成単位に分解し、それぞれ特定の文脈に結び付けることができると論じる。
DecompTuneは、モデルに中間的推論ステップとして解解分解を生成することを教えるポストトレーニング手法である。
DecompTuneは、広範な実験と改善を通じて、属性の品質を大幅に改善し、先行手法より優れ、最先端のフロンティアモデルに適合または超えている。
論文 参考訳(メタデータ) (2025-10-29T17:58:59Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
大規模言語モデル(LLM)は、しばしばスケーリング法則に従う強力な一般化を持つ基礎モデルの例として記述される。
ここでは、強い関数を主張する全てのSOTAモデルの一般化と基本的推論の劇的な分解を示す。
また、間違った解法において強い過信感を観察し、妥当な音響的説明のような折り畳みの形で表現する。
論文 参考訳(メタデータ) (2024-06-04T07:43:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。