論文の概要: Omni-AutoThink: Adaptive Multimodal Reasoning via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.03783v1
- Date: Wed, 03 Dec 2025 13:33:28 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:08:26.312675
- Title: Omni-AutoThink: Adaptive Multimodal Reasoning via Reinforcement Learning
- Title(参考訳): Omni-AutoThink:強化学習による適応型マルチモーダル推論
- Authors: Dongchao Yang, Songxiang Liu, Disong Wang, Yuanyuan Wang, Guanglu Wan, Helen Meng,
- Abstract要約: 本稿では,タスクの難易度に応じてモデルの推論深度を動的に調整する適応推論フレームワークを提案する。
本研究の枠組みは,(1)大規模推論データを用いた基本推論能力を備えた適応監視ファインチューニング段階,(2)タスク複雑性と報酬フィードバックに基づく推論行動の最適化を行う適応強化学習段階の2段階からなる。
- 参考スコア(独自算出の注目度): 57.96134674544638
- License:
- Abstract: Recent advances in Omni models have enabled unified multimodal perception and generation. However, most existing systems still exhibit rigid reasoning behaviors, either overthinking simple problems or failing to reason when necessary. To address this limitation, we propose Omni-AutoThink, a novel adaptive reasoning framework that dynamically adjusts the model's reasoning depth according to task difficulty. Our framework comprises two stages: (1) an Adaptive Supervised Fine-Tuning (Adaptive SFT) stage, which endows the Omni model with fundamental reasoning capability using large-scale reasoning-augmented data, and (2) an Adaptive Reinforcement Learning (Adaptive GRPO) stage, which optimizes reasoning behaviors based on task complexity and reward feedback. We further construct a comprehensive adaptive reasoning benchmark that spans text-only, text-audio, text-visual, and text-audio-visual modalities, providing both training and evaluation splits for multimodal reasoning assessment. Experimental results demonstrate that our proposed framework significantly improves adaptive reasoning performance compared to previous baselines. All benchmark data and code will be publicly released.
- Abstract(参考訳): 近年のOmniモデルの進歩により、統一されたマルチモーダル認識と生成が可能になった。
しかし、既存のシステムの多くは、単純な問題を過度に考えるか、必要ならば推論を怠る、厳格な推論行動を示している。
この制限に対処するため,タスクの難易度に応じてモデルの推論深度を動的に調整する新しい適応推論フレームワークであるOmni-AutoThinkを提案する。
本研究の枠組みは,(1)大規模推論データを用いた基本的な推論能力を備えたOmniモデルを実現するAdaptive Supervised Fine-Tuning(Adaptive SFT)段階,(2)タスク複雑性と報酬フィードバックに基づく推論動作を最適化するAdaptive Reinforcement Learning(Adaptive GRPO)段階の2段階からなる。
さらに、テキストのみ、テキスト・オーディオ、テキスト・ビジュアル、テキスト・オーディオ・ビジュアルのモダリティにまたがる包括的な適応推論ベンチマークを構築し、マルチモーダル推論評価のためのトレーニングと評価の分割を提供する。
実験結果から,提案フレームワークは従来のベースラインに比べて適応推論性能を著しく向上することが示された。
すべてのベンチマークデータとコードは公開されます。
関連論文リスト
- Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning [46.89219923892907]
大規模音声言語モデル(LALM)の推論能力を高めるための強化学習フレームワークであるAudio-Thinkerを提案する。
提案手法は適応的思考精度報酬を導入し,タスクに基づいた推論戦略を動的に調整する。
実験の結果,Audio-Thinkerモデルは,様々なベンチマークタスクにおいて,既存の推論指向のLALMよりも優れていた。
論文 参考訳(メタデータ) (2025-08-11T14:41:10Z) - AdapThink: Adaptive Thinking Preferences for Reasoning Language Model [32.47427081297578]
強化学習(RL)に基づくポストトレーニングは、言語モデルの複雑な推論能力を大幅に向上させた。
しかし、この緩やかな思考のパラダイムは、効率を推理する上で重要な課題である。
より効率的な思考を促すために,適応的なポストトレーニングフレームワークAdapThinkを提案する。
論文 参考訳(メタデータ) (2025-06-23T02:06:04Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning [75.04643265875072]
大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
論文 参考訳(メタデータ) (2025-05-22T07:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。