論文の概要: AERO: Autonomous Evolutionary Reasoning Optimization via Endogenous Dual-Loop Feedback
- arxiv url: http://arxiv.org/abs/2602.03084v1
- Date: Tue, 03 Feb 2026 04:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.237892
- Title: AERO: Autonomous Evolutionary Reasoning Optimization via Endogenous Dual-Loop Feedback
- Title(参考訳): AERO:内因性デュアルループフィードバックによる自律的進化推論最適化
- Authors: Zhitao Gao, Jie Ma, Xuhong Li, Pengyu Li, Ning Qu, Yaqiang Wu, Hui Liu, Jun Liu,
- Abstract要約: 以下は「アンダーライン・アンダーライン・エボリューショナリー・アンダーライン・アンダーライン・オプティマイゼーション(AERO)」である。
AEROは、シナジスティックなデュアルループシステムの中で、自己問合せ、回答、批判を内部化する。
- 参考スコア(独自算出の注目度): 27.681632584269707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved significant success in complex reasoning but remain bottlenecked by reliance on expert-annotated data and external verifiers. While existing self-evolution paradigms aim to bypass these constraints, they often fail to identify the optimal learning zone and risk reinforcing collective hallucinations and incorrect priors through flawed internal feedback. To address these challenges, we propose \underline{A}utonomous \underline{E}volutionary \underline{R}easoning \underline{O}ptimization (AERO), an unsupervised framework that achieves autonomous reasoning evolution by internalizing self-questioning, answering, and criticism within a synergistic dual-loop system. Inspired by the \textit{Zone of Proximal Development (ZPD)} theory, AERO utilizes entropy-based positioning to target the ``solvability gap'' and employs Independent Counterfactual Correction for robust verification. Furthermore, we introduce a Staggered Training Strategy to synchronize capability growth across functional roles and prevent curriculum collapse. Extensive evaluations across nine benchmarks spanning three domains demonstrate that AERO achieves average performance improvements of 4.57\% on Qwen3-4B-Base and 5.10\% on Qwen3-8B-Base, outperforming competitive baselines. Code is available at https://github.com/mira-ai-lab/AERO.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論において大きな成功を収めてきたが、専門家による注釈付きデータや外部検証に頼ってボトルネックに残っている。
既存の自己進化パラダイムは、これらの制約を回避しようとしているが、最適な学習ゾーンを特定し、欠陥のある内部フィードバックを通じて、集団の幻覚と誤った事前を補強するリスクを負うことが多い。
これらの課題に対処するために, 自己問合せ, 答え, 批判をシナジスティックな二重ループシステム内で内部化し, 自律的推論の進化を実現する, 教師なしのフレームワークである \underline{A}utonomous \underline{E}volutionary \underline{R}easoning \underline{O}ptimization (AERO) を提案する。
近似開発 (ZPD) 理論にインスパイアされた AERO はエントロピーに基づく位置決めを利用して '可解性ギャップ' を目標とし、頑健な検証のために独立対実補正を用いる。
さらに,機能的役割間の機能的成長を同期させ,カリキュラムの崩壊を防止するために,Staggered Training Strategyを導入する。
AEROはQwen3-4Bベースで4.57倍、Qwen3-8Bベースで5.10倍のパフォーマンス向上を達成し、競争上のベースラインを上回っている。
コードはhttps://github.com/mira-ai-lab/AEROで公開されている。
関連論文リスト
- DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution [38.660154251426505]
DARC(Decoupled Asymmetric Reasoning Curriculum)は,自己進化過程を安定化する2段階のフレームワークである。
DARCはモデルに依存しないので、9つの推論ベンチマークと3つのバックボーンモデルで平均10.9ポイントの改善が得られる。
論文 参考訳(メタデータ) (2026-01-20T09:12:27Z) - No More Stale Feedback: Co-Evolving Critics for Open-World Agent Learning [21.237273221334963]
ECHOは、同期された共進化ループを通じてポリシーと批判を共同で最適化するフレームワークである。
ECHOは、より安定したトレーニングと、オープンワールド環境全体にわたる長期タスクの成功をもたらす。
論文 参考訳(メタデータ) (2026-01-11T07:29:08Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。