論文の概要: A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning
- arxiv url: http://arxiv.org/abs/2509.22044v1
- Date: Fri, 26 Sep 2025 08:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.297337
- Title: A2R: An Asymmetric Two-Stage Reasoning Framework for Parallel Reasoning
- Title(参考訳): A2R:並列推論のための非対称2段階推論フレームワーク
- Authors: Ziqi Wang, Boye Niu, Zhongli Li, Linghui Meng, Jing Liu, Zhi Zheng, Tong Xu, Hua Wu, Haifeng Wang, Enhong Chen,
- Abstract要約: モデルポテンシャルと実際の性能の間のギャップを埋めるために設計された非対称な2段階推論フレームワーク。
A2R-Efficientは、Qwen3-4BとQwen3-8Bシンセサイザーを組み合わせた「小型から大型」の派生型である。
その結果、A2Rはパフォーマンス・ブートスティングのフレームワークであるだけでなく、現実世界のアプリケーションに対して効率的かつ実用的なソリューションであることがわかった。
- 参考スコア(独自算出の注目度): 57.727084580884075
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent Large Reasoning Models have achieved significant improvements in complex task-solving capabilities by allocating more computation at the inference stage with a "thinking longer" paradigm. Even as the foundational reasoning capabilities of models advance rapidly, the persistent gap between a model's performance in a single attempt and its latent potential, often revealed only across multiple solution paths, starkly highlights the disparity between its realized and inherent capabilities. To address this, we present A2R, an Asymmetric Two-Stage Reasoning framework designed to explicitly bridge the gap between a model's potential and its actual performance. In this framework, an "explorer" model first generates potential solutions in parallel through repeated sampling. Subsequently,a "synthesizer" model integrates these references for a more refined, second stage of reasoning. This two-stage process allows computation to be scaled orthogonally to existing sequential methods. Our work makes two key innovations: First, we present A2R as a plug-and-play parallel reasoning framework that explicitly enhances a model's capabilities on complex questions. For example, using our framework, the Qwen3-8B-distill model achieves a 75% performance improvement compared to its self-consistency baseline. Second, through a systematic analysis of the explorer and synthesizer roles, we identify an effective asymmetric scaling paradigm. This insight leads to A2R-Efficient, a "small-to-big" variant that combines a Qwen3-4B explorer with a Qwen3-8B synthesizer. This configuration surpasses the average performance of a monolithic Qwen3-32B model at a nearly 30% lower cost. Collectively, these results show that A2R is not only a performance-boosting framework but also an efficient and practical solution for real-world applications.
- Abstract(参考訳): 最近の大規模推論モデルは、推論段階でより多くの計算を「より長い」パラダイムで割り当てることで、複雑なタスク解決能力を大幅に改善した。
モデルの基本的推論能力は急速に進歩するが、単一の試みにおけるモデルの性能と潜在可能性の間の永続的なギャップは、しばしば複数のソリューションパスにのみ現れ、その実現された能力と固有の能力の相違を著しく強調する。
これを解決するために,モデルポテンシャルと実際の性能とのギャップを明示的に埋めるために設計された非対称な2段階推論フレームワークであるA2Rを提案する。
このフレームワークでは、「探索者」モデルがまず、繰り返しサンプリングすることで、潜在的ソリューションを並列に生成する。
その後、「シンセサイザー」モデルは、より洗練された第二段階の推論のためにこれらの参照を統合する。
この2段階のプロセスは、計算を既存のシーケンシャルメソッドと直交的にスケールすることができる。
まず、A2Rをプラグアンドプレイ並列推論フレームワークとして提示し、複雑な問題に対するモデルの能力を明確に向上させます。
例えば、我々のフレームワークを用いて、Qwen3-8B-distillモデルは、自己整合性ベースラインと比較して75%の性能向上を実現している。
第二に、エクスプローラーとシンセサイザーの役割を体系的に分析することにより、効果的な非対称スケーリングパラダイムを同定する。
この知見は、Qwen3-4BエクスプローラーとQwen3-8Bシンセサイザーを組み合わせた「小さいから大きい」変種であるA2R-Efficientに繋がる。
この構成は、モノリシックなQwen3-32Bモデルの平均性能を約30%低いコストで上回る。
これらの結果から,A2Rは性能向上のためのフレームワークであるだけでなく,実世界のアプリケーションに対して,効率的かつ実用的なソリューションであることが示された。
関連論文リスト
- SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging [17.038807261969033]
Long-to-Short (L2S) 推論は推論深度と実用効率のバランスをとることを目的としている。
モデルマージは、System 1モデルの迅速な思考能力とSystem 2モデルの方法論的推論を統合することで、コスト効率が高く堅牢な代替手段を提供する。
実験の結果,モデルマージにより平均応答長を最大55%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-26T15:34:37Z) - A Lightweight Feature Fusion Architecture For Resource-Constrained Crowd
Counting [3.5066463427087777]
クラウドカウントモデルの汎用性を高めるために,2つの軽量モデルを導入する。
これらのモデルは、MobileNetとMobileViTという2つの異なるバックボーンを持ちながら、同じダウンストリームアーキテクチャを維持している。
隣接特徴融合を利用して、事前学習モデル(PTM)から多様な特徴を抽出し、その後、シームレスにこれらの特徴を組み合わせる。
論文 参考訳(メタデータ) (2024-01-11T15:13:31Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。