論文の概要: ARM2: Adaptive Reasoning Model with Vision Understanding and Executable Code
- arxiv url: http://arxiv.org/abs/2510.08163v1
- Date: Thu, 09 Oct 2025 12:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.077924
- Title: ARM2: Adaptive Reasoning Model with Vision Understanding and Executable Code
- Title(参考訳): ARM2: 視覚理解と実行可能なコードを備えた適応型推論モデル
- Authors: Jian Xie, Zhendong Chu, Aoxiao Zhong, Kai Zhang, Mingzhe Han, Xin Fang, Jialie Shen, Qingsong Wen,
- Abstract要約: 大規模推論モデル(LRM)は、しばしば過剰な思考の問題に悩まされ、単純なタスクに対する不必要に長い推論を引き起こす。
ARM2は、複数のフォーマットにわたる推論性能と効率を適応的にバランスさせる統一モデルである。
- 参考スコア(独自算出の注目度): 46.919856491307996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) often suffer from the ``over-thinking'' problem, generating unnecessarily long reasoning on simple tasks. Some strategies have been proposed to mitigate this issue, such as length penalties or routing mechanisms, but they are typically heuristic and task-specific, lacking a general framework for adaptive reasoning. In this paper, we present ARM2, a unified model that adaptively balances reasoning performance and efficiency across multiple formats through a reinforcement learning framework augmented with length-aware optimization. Beyond conventional natural language inference, ARM2 integrates vision understanding, extending its applicability to multimodal. Moreover, ARM2 integrates executable code into reasoning, enabling substantial reductions in token cost while preserving task performance compared to long CoT. Experiments demonstrate that ARM2 achieves performance on par with traditional reasoning models trained with GRPO, while reducing token usage by over 70% on average. We further conduct extensive analyses to validate the effectiveness of ARM2 and the soundness of its design.
- Abstract(参考訳): Large Reasoning Models (LRM) はしばしば ‘over-thinking' 問題に悩まされ、単純なタスクに対する不必要に長い推論を引き起こす。
長さのペナルティやルーティング機構など、この問題を軽減するためのいくつかの戦略が提案されているが、それらは典型的にはヒューリスティックでタスク固有であり、適応推論の一般的な枠組みが欠如している。
本稿では,複数フォーマット間の推論性能と効率を適応的にバランスさせる統一モデルARM2を提案する。
従来の自然言語推論以外にも、ARM2は視覚理解を統合し、そのマルチモーダルへの適用性を拡張している。
さらに、ARM2は実行可能なコードを推論に統合し、長いCoTと比較してタスクパフォーマンスを保ちながらトークンコストを大幅に削減する。
実験によると、ARM2はGRPOでトレーニングされた従来の推論モデルと同等のパフォーマンスを実現し、トークン使用率を平均70%以上削減している。
さらに、ARM2の有効性と設計の健全性を検証するために、広範な分析を行う。
関連論文リスト
- Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Don't Overthink It: A Survey of Efficient R1-style Large Reasoning Models [49.598776427454176]
大規模共振モデル (LRM) は, 複雑なタスクの処理性能に優れていたため, 徐々に研究ホットスポットになりつつある。
しかし、これらのモデルが広く適用されたことにより、過度に考え直すという問題が徐々に顕在化していった。
モデル性能と推論能力を損なうことなく、推論経路の長さを短縮することを目的とした、様々な効率的な推論手法が提案されている。
論文 参考訳(メタデータ) (2025-08-04T06:54:31Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z) - ARM: Adaptive Reasoning Model [36.53965139929349]
本稿では,そのタスクに基づいて適切なフォーマットを適応的に選択できる推論モデルであるAdaptive Reasoning Model (ARM)を提案する。
Ada-GRPOはARMが高いトークン効率を実現し、Long CoTのみに依存するモデルに匹敵するパフォーマンスを維持しながら、トークンを平均30%、最大70%削減する。
論文 参考訳(メタデータ) (2025-05-26T17:38:50Z) - Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models [50.4652276723694]
Think-RMは、高度な機能をサポートするフレキシブルで自己誘導的な推論トレースを生成する。
Think-RM は RM-Bench 上で最先端の結果を達成し,BT RM と GenRM の垂直スケールを8% 上回った。
論文 参考訳(メタデータ) (2025-05-22T05:56:11Z) - When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning [20.233873556056487]
大規模推論モデル(LRM)は、長い推論チェーンを通じて顕著な性能を達成するが、しばしば冗長な推論のために過剰な計算オーバーヘッドを引き起こす。
本稿では、不必要な推論を抑え、暗黙の回復を可能にするフレームワークである適応自己回復推論(ASRR)を提案する。
本研究は, LRMの効率, 適応性, 安全性を高めるためのASRRの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-05-21T11:41:39Z) - Activation-Guided Consensus Merging for Large Language Models [25.68958388022476]
textbfActivation-Guided textbfConsensus textbfMerging(textbfACM)は,層固有のマージ係数を決定するプラグインとプレイのマージフレームワークである。
L2S(Long-to-Short)と一般的なマージタスクの実験は、ACMが全てのベースラインメソッドを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-05-20T07:04:01Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Two is Better than One: Efficient Ensemble Defense for Robust and Compact Models [21.88436406884943]
我々は,異なるプルーニング重要度スコアに基づいて単一ベースモデルの圧縮を多様化し,高い対向的堅牢性と資源効率を達成するためにアンサンブルの多様性を高めるEEDを紹介する。
EEDは、既存の敵プルーニング技術と比較して最先端の性能を示し、推論速度は最大1.86倍に向上した。
論文 参考訳(メタデータ) (2025-04-07T05:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。