論文の概要: LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition
- arxiv url: http://arxiv.org/abs/2605.24005v1
- Date: Tue, 19 May 2026 07:27:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.524103
- Title: LC-ERD: Mining Latent Logic for Self-Evolving Reasoning via Consistency-Regulated Reward Decomposition
- Title(参考訳): LC-ERD: 整合性制御された逆分解による自己進化推論のための潜在論理のマイニング
- Authors: Yanyu Chen, Jiyue Jiang, Dianzhi Yu, Zheng Wu, Jiahong Liu, Jiaming Han, Xiao Guo, Jinhu Qi, Yu Li, Yifei Zhang, Irwin King,
- Abstract要約: 本稿では, LC-ERD (Logic-Consistent Endogenous Reward Decomposition) を紹介する。
モデルの潜在論理エキスパートズ(Latent Logic Expertise)からのコンセンサスを集約することで、変分論理ポテンシャルを導出する。
LC-ERDは、論理の一貫性と正確性の間のトレードオフを明らかにする、堅牢な自己進化パスを提供する。
- 参考スコア(独自算出の注目度): 55.572260012037084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of Large Language Model (LLM) reasoning is bottlenecked by the scarcity of high-quality process data. While self-alignment via endogenous rewards offers a solution, mining valid supervision faces three challenges: (1) Label Noise via Mimetic Bias, where rewards prioritize statistical likelihood over logical truth, creating a "correctness illusion" that masks compounding errors; (2) Coarse-Grained Supervision, where sparse global outcomes (e.g., in GRPO) fail to provide granular guidance, treating reasoning chains as monolithic; and (3) Distributional Collapse, where signals fail to generalize without amplifying pre-training biases. To address these, we introduce LC-ERD (Logic-Consistent Endogenous Reward Decomposition), a framework framing self-alignment as latent structure mining. We derive a Variational Logic Potential by aggregating consensus from the model's Latent Logic Expertise (LLE) to denoise the reasoning manifold, and introduce a Multi-Agent Value Decomposition protocol based on the IGM principle to quantify individual step utility. Experiments show LC-ERD delivers a robust self-evolution path, uncovering trade-offs between logic consistency and accuracy while identifying high-value reasoning patterns missed by standard rewards. Our code is available at https://github.com/Reinhardmannn/LC-ERD.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の進化は、高品質なプロセスデータの不足によってボトルネックとなる。
内因性報酬による自己調整は解決策を提供するが、有効な監督は次の3つの課題に直面する:(1)ミメティックバイアスによるラベルノイズ 報酬が論理的真理よりも統計的確率を優先するラベルノイズ 複合的エラーを隠蔽する「正確性錯覚」を作る (2) 粗いグローバルな結果(例えばGRPO) がきめ細かなガイダンスの提供に失敗し、推論チェーンをモノリシックとして扱う (3) 信号が事前学習バイアスを増幅せずに一般化できない 分散崩壊 。
そこで我々はLC-ERD (Logic-Consistent Endogenous Reward Decomposition) を導入する。
モデルの潜在論理エキスパート(LLE)からのコンセンサスを集約して、推論多様体を識別し、IGMの原理に基づくマルチエージェント値分解プロトコルを導入し、個々のステップユーティリティを定量化する。
LC-ERDは、論理一貫性と精度のトレードオフを明らかにするとともに、標準報酬で欠落した高価値推論パターンを識別する、堅牢な自己進化パスを提供する。
私たちのコードはhttps://github.com/Reinhardmannn/LC-ERD.comで公開されています。
関連論文リスト
- A2RBench: An Automatic Paradigm for Formally Verifiable Abstract Reasoning Benchmark Generation [59.98516959731531]
抽象推論能力は、抽象ルールを抽出し適用するためのLLMの知性と能力を反映する。
既存のベンチマークは、高価な手作業のアノテーション、そのスケールの制限、あるいは真の推論ではなく暗記のリスク測定に頼っている。
我々はA2RBenchという名の自動パイプラインを導入し、生成、拡張、評価、分析を行う。
論文 参考訳(メタデータ) (2026-05-17T06:14:20Z) - Logic-Regularized Verifier Elicits Reasoning from LLMs [63.65875399266337]
論理規則で正規化された教師なしの検証器であるLOVERを提案する。
ローバーは、定理を二項潜在変数として扱い、内部の活性化を活用し、3つの論理的制約を課す。
ローバーは教師なしのベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2026-05-07T09:03:49Z) - Reasoning on the Manifold: Bidirectional Consistency for Self-Verification in Diffusion Language Models [30.607422839762553]
BMC(Bidirectional Manifold Consistency)は、トレーニングなし、教師なしのメトリクスである。
BMCは、根拠となる真理の答えなしに、解の有効性の堅牢な判別器として機能する。
本研究は,dLLMの正当性を示す頑健な指標として,固有幾何安定性を確立した。
論文 参考訳(メタデータ) (2026-04-17T10:17:16Z) - Generation Order and Parallel Decoding in Masked Diffusion Models: An Information-Theoretic Perspective [16.942478643768144]
Masked Diffusion Models (MDMs) は、逐次決定論のトレードオフによって推論を著しく加速する。
我々は,2つの障害源である順序感度と並列化バイアスを分離し,解析するための統合情報理論フレームワークを提供する。
論文 参考訳(メタデータ) (2026-01-30T20:15:18Z) - VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving [57.652356955571065]
最先端の大規模言語モデル(LLM)パイプラインは、ブートストラップの推論ループに依存している。
我々は、この設計選択が、推論経路上のモデルの分布の崩壊にどのように敏感であるかを分析する。
本稿では,分散創造推論(DCR)について紹介する。これは,解トレースの確率測定を通じて,トレーニングを勾配流としてキャストする,統一的な変分目的である。
論文 参考訳(メタデータ) (2026-01-02T17:10:31Z) - ARCHE: A Novel Task to Evaluate LLMs on Latent Reasoning Chain Extraction [70.53044880892196]
本稿では、複雑な推論引数を標準推論パラダイムの組み合わせに分解し、Reasoning Logic Tree (RLT) という形で分解しなければならない、ARCHE(Latent Reasoning Chain extract)という新しいタスクを紹介する。
この作業を容易にするために,我々は,1,900以上の参照と38,000の視点を含む70のNature Communicationsの記事から得られた新しいベンチマークであるARCHE Benchをリリースする。
ARCHE Bench上での10のLLMの評価では、モデルがREAとECのトレードオフを示しており、完全な標準推論チェーンを抽出することはできません。
論文 参考訳(メタデータ) (2025-11-16T07:37:09Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。