論文の概要: What Makes Reasoning Invalid: Echo Reflection Mitigation for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.06380v1
- Date: Sun, 09 Nov 2025 13:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.913126
- Title: What Makes Reasoning Invalid: Echo Reflection Mitigation for Large Language Models
- Title(参考訳): 推論が無効になる理由:大規模言語モデルに対するエコー反射緩和
- Authors: Chen He, Xun Jiang, Lei Wang, Hao Yang, Chong Peng, Peng Yan, Fumin Shen, Xing Xu,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い推論タスクで顕著なパフォーマンスを示している。
適応エントロピーポリシー最適化(AEPO)と呼ばれる新しい強化学習手法を提案する。
- 参考スコア(独自算出の注目度): 31.62165580395724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of reasoning tasks. Recent methods have further improved LLM performance in complex mathematical reasoning. However, when extending these methods beyond the domain of mathematical reasoning to tasks involving complex domain-specific knowledge, we observe a consistent failure of LLMs to generate novel insights during the reflection stage. Instead of conducting genuine cognitive refinement, the model tends to mechanically reiterate earlier reasoning steps without introducing new information or perspectives, a phenomenon referred to as "Echo Reflection". We attribute this behavior to two key defects: (1) Uncontrollable information flow during response generation, which allows premature intermediate thoughts to propagate unchecked and distort final decisions; (2) Insufficient exploration of internal knowledge during reflection, leading to repeating earlier findings rather than generating new cognitive insights. Building on these findings, we proposed a novel reinforcement learning method termed Adaptive Entropy Policy Optimization (AEPO). Specifically, the AEPO framework consists of two major components: (1) Reflection-aware Information Filtration, which quantifies the cognitive information flow and prevents the final answer from being affected by earlier bad cognitive information; (2) Adaptive-Entropy Optimization, which dynamically balances exploration and exploitation across different reasoning stages, promoting both reflective diversity and answer correctness. Extensive experiments demonstrate that AEPO consistently achieves state-of-the-art performance over mainstream reinforcement learning baselines across diverse benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い推論タスクで顕著なパフォーマンスを示している。
最近の手法は、複雑な数学的推論におけるLLM性能をさらに改善した。
しかし、これらの手法を数学的推論の領域を超えて複雑な領域固有の知識を含むタスクに拡張すると、LLMが一貫した失敗を観察し、リフレクション段階で新たな洞察を生み出す。
真の認知的改善を行う代わりに、このモデルは「Echo Reflection」と呼ばれる現象である、新しい情報や視点を導入することなく、より初期の推論ステップを機械的に繰り返す傾向にある。
本研究は,(1)未確認思考を伝播させ,最終決定を歪ませる,応答生成時の制御不能な情報フロー,(2)リフレクション中の内部知識の不十分な探索,という2つの重要な欠陥を考察する。
これらの知見に基づいて,適応エントロピーポリシー最適化 (AEPO) と呼ばれる新しい強化学習手法を提案した。
AEPO フレームワークは,(1) 認知情報の流れを定量化し,最終回答が早期の認知情報に影響されないための反射認識情報フィルタリング,(2) 適応エントロピー最適化(Adaptive-Entropy Optimization, 適応エントロピー最適化) の2つの主要な構成要素から構成される。
大規模な実験により、AEPOは様々なベンチマークで主流の強化学習ベースラインよりも最先端のパフォーマンスを一貫して達成している。
関連論文リスト
- ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Lost at the Beginning of Reasoning [85.17612793300238]
第1の推論ステップが最終予測に不当に大きな影響を与えることを示す。
本稿では、報酬モデルを利用して高品質な第1推論ステップを特定し、維持する効率的なサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2025-06-27T09:53:57Z) - Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning [45.28220409043598]
MLLM(Multimodal large language model)は、タスク推論において有望な能力を示すが、明示的な自己回帰と自己補正を必要とする複雑な問題に悩まされている。
既存のリフレクション手法は単純で、意味のあるインストラクティブフィードバックを生成するのに苦労している。
本稿では,2段階のリフレクション対応強化学習フレームワークであるグループ相対ポリシー最適化 (SRPO) を用いたマルチモーダル自己回帰強化推論を提案する。
論文 参考訳(メタデータ) (2025-06-02T14:21:44Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Two Heads Are Better Than One: Dual-Model Verbal Reflection at Inference-Time [22.397964526411812]
本稿では,効果的なリフレクションを訓練した専用の批判モデルを備えたデュアルモデル反射スコーリングフレームワークを提案する。
DARSは強力なパフォーマンスを達成し、すべての評価指標で既存のASSベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-02-26T15:41:41Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。