論文の概要: Recursive Concept Evolution for Compositional Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.15725v1
- Date: Tue, 17 Feb 2026 17:01:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.133634
- Title: Recursive Concept Evolution for Compositional Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける構成推論のための再帰的概念進化
- Authors: Sarim Chaudhry,
- Abstract要約: 大規模言語モデルは、多くの複雑な推論タスクにおいて強力な性能を達成するが、その精度は、構成的推論を必要とするベンチマークで著しく低下する。
本稿では、事前学習した言語モデルが推論中に内部表現の幾何を変更することができるフレームワークであるRecursive Concept Evolution (RCE)を提案する。
RCEはARC-AGI-2で12-18点、GPQAとBBHで8-14点、MATHとHLEで深度誘起誤差が一貫して減少する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models achieve strong performance on many complex reasoning tasks, yet their accuracy degrades sharply on benchmarks that require compositional reasoning, including ARC-AGI-2, GPQA, MATH, BBH, and HLE. Existing methods improve reasoning by expanding token-level search through chain-of-thought prompting, self-consistency, or reinforcement learning, but they leave the model's latent representation space fixed. When the required abstraction is not already encoded in this space, performance collapses. We propose Recursive Concept Evolution (RCE), a framework that enables pretrained language models to modify their internal representation geometry during inference. RCE introduces dynamically generated low-rank concept subspaces that are spawned when representational inadequacy is detected, selected through a minimum description length criterion, merged when synergistic, and consolidated via constrained optimization to preserve stability. This process allows the model to construct new abstractions rather than recombining existing ones. We integrate RCE with Mistral-7B and evaluate it across compositional reasoning benchmarks. RCE yields 12-18 point gains on ARC-AGI-2, 8-14 point improvements on GPQA and BBH, and consistent reductions in depth-induced error on MATH and HLE.
- Abstract(参考訳): 大規模言語モデルは複雑な推論タスクにおいて高い性能を達成するが、その精度はARC-AGI-2、GPQA、MATH、BBH、HLEなどの構成推論を必要とするベンチマークで著しく低下する。
既存の方法は、チェーン・オブ・シークレット・プロンプト、自己整合性、強化学習を通じてトークンレベルの探索を拡張することによって推論を改善するが、モデルの潜在表現空間は固定される。
この領域で必要となる抽象化がすでにコード化されていない場合、パフォーマンスは崩壊する。
本稿では、事前学習した言語モデルが推論中に内部表現の幾何を変更することができるフレームワークであるRecursive Concept Evolution (RCE)を提案する。
RCEは、表現の不完全性が検出されたときに生成される動的に生成された低ランクの概念部分空間を導入し、最小記述長の基準で選択し、相乗的であればマージし、安定性を維持するために制約付き最適化によって統合する。
このプロセスにより、モデルは既存の抽象化を再結合するのではなく、新しい抽象化を構築することができる。
我々は、RCEをMistral-7Bと統合し、構成的推論ベンチマークで評価する。
RCEはARC-AGI-2で12-18点、GPQAとBBHで8-14点、MATHとHLEで深度誘起誤差が一貫して減少する。
関連論文リスト
- Arbor: A Framework for Reliable Navigation of Critical Conversation Flows [0.19573380763700712]
本稿では,決定木ナビゲーションを専門的なノードレベルのタスクに分解するフレームワークであるArborを紹介する。
Abortは平均ターン精度を29.4ポイント改善し、ターン毎のレイテンシを57.1%削減し、ターン毎のコストを平均14.4倍削減する。
論文 参考訳(メタデータ) (2026-02-16T11:09:02Z) - Do Reasoning Models Enhance Embedding Models? [48.43242995118735]
最先端の埋め込みモデルは、対照的な学習によって適応されたデコーダのみの大規模言語モデルバックボーンから、ますます派生している。
RLVRで調整したバックボーンの埋め込みモデルでは,同一のトレーニングレシピを適用した場合,ベースボーンに対して一貫した性能上の優位性は得られなかった。
論文 参考訳(メタデータ) (2026-01-29T02:48:34Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - Reasoning Pattern Alignment Merging for Adaptive Reasoning [48.347817456299104]
Reasoning Pattern Alignment Merging (RPAM)
RPAMは、クエリ適応推論を容易にする機能アライメントに基づく階層的なモデルマージフレームワークである。
広く使用されている7つの推論ベンチマークの実験により、RPAMは強い性能を維持しながら推論コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-01-07T01:36:39Z) - Encode, Think, Decode: Scaling test-time reasoning with recursive latent thoughts [19.518525241726916]
Encode-Think-Decode (ETD) は、トレーニング中の推論関連レイヤの小さなサブセットを反復するようにトレーニングすることで、ベースモデルの推論能力を向上する手法である。
ETDモデルは、GSM8Kで+28.4%、OLMo-2 1Bベースモデルで+36%の相対精度の改善を含む17の推論ベンチマークで大幅に向上した。
論文 参考訳(メタデータ) (2025-10-08T15:58:35Z) - Enhancing Test-Time Scaling of Large Language Models with Hierarchical Retrieval-Augmented MCTS [19.394761422323853]
R2-LLMsは,新規で汎用的な階層型検索拡張推論フレームワークである。
R2-LLMsは、二重レベル検索ベースのインコンテキスト学習を統合することにより、推論時間一般化を強化する。
MATH500、GSM8K、OlympiadBench-TOデータセットに関する実証的な評価は、かなりの相対的な改善をもたらす。
論文 参考訳(メタデータ) (2025-07-08T00:41:12Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。