論文の概要: ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation
- arxiv url: http://arxiv.org/abs/2602.05472v1
- Date: Thu, 05 Feb 2026 09:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.860683
- Title: ALIVE: Awakening LLM Reasoning via Adversarial Learning and Instructive Verbal Evaluation
- Title(参考訳): ALIVE: 逆学習と指導的言語評価によるLLM推論の覚醒
- Authors: Yiwen Duan, Jing Ye, Xinpei Zhao,
- Abstract要約: ハンズフリーアライメントフレームワークである textbfALIVE (emphAdrial Learning with Instructive Verbal Evaluation) を導入する。
対人学習とインストラクティブな言語フィードバックを結合することにより、ALIVEはモデルが生のコーパスから直接評価基準を内在化できるようにする。
同一のデータと計算により、ALIVEはクロスドメインの一般化を著しく改善し、自己補正率も向上した。
- 参考スコア(独自算出の注目度): 4.265094703231012
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The quest for expert-level reasoning in Large Language Models (LLMs) has been hampered by a persistent \textit{reward bottleneck}: traditional reinforcement learning (RL) relies on scalar rewards that are \textbf{costly} to scale, \textbf{brittle} across domains, and \textbf{blind} to the underlying logic of a solution. This reliance on external, impoverished signals prevents models from developing a deep, self-contained understanding of reasoning principles. We introduce \textbf{ALIVE} (\emph{Adversarial Learning with Instructive Verbal Evaluation}), a hands-free alignment framework that moves beyond scalar reward optimization toward intrinsic reasoning acquisition. Grounded in the principle of \emph{Cognitive Synergy}, ALIVE unifies problem posing, solving, and judging within a single policy model to internalize the logic of correctness. By coupling adversarial learning with instructive verbal feedback, ALIVE enables models to internalize evaluative criteria directly from raw corpora, effectively transforming external critiques into an endogenous reasoning faculty. Empirical evaluations across mathematical reasoning, code generation, and general logical inference benchmarks demonstrate that ALIVE consistently mitigates reward signal limitations. With identical data and compute, it achieves accuracy gains, markedly improved cross-domain generalization, and higher self-correction rates. These results indicate that the reasoning trinity fosters a self-sustaining trajectory of capability growth, positioning ALIVE as a scalable foundation for general-purpose reasoning alignment without human-in-the-loop supervision.
- Abstract(参考訳): 従来の強化学習(RL)は、スケールするために \textbf{costly}、ドメイン間で \textbf{brittle}、ソリューションの基礎となるロジックに \textbf{blind} であるスカラー報酬に依存している。
この外部の貧弱な信号への依存は、モデルが推論原理の深い自己完結した理解を発達させるのを防ぐ。
Instructive Verbal Evaluation} は,スカラー報酬最適化を超えて,本質的な推論獲得へと移行する手軽なアライメントフレームワークである。
ALIVE は \emph{Cognitive Synergy} の原理に基づいており、問題のポーズ、解決、判断を単一のポリシーモデル内で統一し、正当性の論理を内部化する。
対人学習とインストラクティブな言語フィードバックを結合することにより、ALIVEはモデルが生のコーパスから直接評価基準を内部化し、外部批判を内在的推論に効果的に変換することを可能にする。
数学的推論、コード生成、一般的な論理推論ベンチマークによる経験的評価は、ALIVEが報酬信号の制限を一貫して緩和していることを示している。
同一のデータと計算により精度の向上、ドメイン間一般化の大幅な改善、自己補正率の向上を実現している。
これらの結果から, 推論トリニティは, 自己持続的な能力成長の軌跡を育み, ALIVEを人道支援を伴わない汎用推論アライメントのスケーラブルな基盤として位置づけた。
関連論文リスト
- Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - Stepwise Think-Critique: A Unified Framework for Robust and Interpretable LLM Reasoning [47.867294403474176]
一つのモデル内の各ステップで推論と自己批判をインターリーブする統合フレームワークであるStepwise Think-Critiqueを提案する。
STCは、推論品質と自己評価を共同で最適化するために、推論報酬と批判一貫性報酬を組み合わせたハイブリッド強化学習目標を用いて訓練される。
論文 参考訳(メタデータ) (2025-12-17T18:15:17Z) - Eliciting Chain-of-Thought in Base LLMs via Gradient-Based Representation Optimization [22.301471821413816]
Chain-of-Thought (CoT)推論は、大規模言語モデル(LLM)にとって重要な機能である。
そこで本研究では, 条件付き状態操作により, ベースLLMからElic-Iting CoTを推論する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-11-24T13:55:57Z) - Cognitive Inception: Agentic Reasoning against Visual Deceptions by Injecting Skepticism [81.39177645864757]
完全推論に基づくエージェント推論フレームワークであるtextbfInception を提案する。
私たちの知る限りでは、AIGCの視覚的騙しに対する完全な推論ベースのフレームワークとしてはこれが初めてです。
論文 参考訳(メタデータ) (2025-11-21T05:13:30Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Stabilizing Reinforcement Learning for Honesty Alignment in Language Models on Deductive Reasoning [27.42733470720954]
本研究では,地上の真実軌道をロールアウトに注入し,早期の訓練崩壊を防ぐ強化学習手法を提案する。
その結果,本手法は学習を安定させ,全体の推論性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-11-12T11:34:19Z) - From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。
DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。
実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文 参考訳(メタデータ) (2025-10-13T14:29:15Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。