論文の概要: Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning
- arxiv url: http://arxiv.org/abs/2509.22746v1
- Date: Fri, 26 Sep 2025 04:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.846599
- Title: Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning
- Title(参考訳): 視覚の混合:一般的な視覚的推論のための文脈適応型推論モード選択の探索
- Authors: Zejun Li, Yingxiu Zhao, Jiwen Zhang, Siyuan Wang, Yang Yao, Runzhou Zhao, Jun Song, Bo Zheng, Zhongyu Wei,
- Abstract要約: 我々は、新しい適応推論パラダイム、Mixture-of-Visual-Thoughts (MoVT)を提案する。
MoVTは単一のモデル内で異なる推論モードを統一し、コンテキストに基づいて適切なモードを選択するように誘導する。
AdaVaRは、モデルを効果的にガイドし、複数のモードを学び、区別し、コンテキスト適応モード選択を実行する。
- 参考スコア(独自算出の注目度): 43.07723859242318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current visual reasoning methods mainly focus on exploring specific reasoning modes. Although improvements can be achieved in particular domains, they struggle to develop general reasoning capabilities. Inspired by this, we propose a novel adaptive reasoning paradigm, Mixture-of-Visual-Thoughts (MoVT), which unifies different reasoning modes within a single model and guides it to select the appropriate mode based on context. To achieve this, we introduce AdaVaR, a two-stage Adaptive Visual Reasoning learning framework: different modes are unified and learned during the supervised cold-start stage, and the mode selection capability is induced via an RL process with a carefully designed AdaGRPO algorithm. Extensive experiments show that AdaVaR effectively guides the model to learn and differentiate multiple modes and perform context-adaptive mode selection, achieving consistent improvement across various scenarios, highlighting MoVT as an effective solution for building general visual reasoning models.
- Abstract(参考訳): 現在の視覚的推論法は主に特定の推論モードの探索に焦点を当てている。
改善は特定の領域で達成できるが、一般的な推論能力の開発に苦慮している。
そこで本研究では,単一のモデル内で異なる推論モードを統一し,コンテキストに基づいて適切なモードを選択するための適応推論パラダイムであるMixture-of-Visual-Thoughts(MoVT)を提案する。
そこで本研究では,2段階の適応型視覚推論学習フレームワークであるAdaVaRを紹介し,冷間開始段階で異なるモードを統一・学習し,慎重に設計したAdaGRPOアルゴリズムを用いてRLプロセスを介してモード選択能力を誘導する。
大規模な実験により、AdaVaRは複数のモードを学習し、区別し、コンテキスト適応モードの選択を行うことで、様々なシナリオで一貫した改善を実現し、一般的な視覚的推論モデルを構築するための効果的なソリューションとしてMoVTを強調している。
関連論文リスト
- Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Variational Search Distributions [16.609027794680213]
稀に望まれるクラスに対して離散的・変動的デザインの生成モデルを条件付けするVSDを開発する。
実数列設計問題に対して,VSDが既存のベースライン手法より優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-10T01:33:31Z) - Variance-Preserving-Based Interpolation Diffusion Models for Speech
Enhancement [53.2171981279647]
本稿では,VP-および分散拡散(VE)に基づく拡散法の両方をカプセル化するフレームワークを提案する。
本研究では,拡散モデルで発生する一般的な困難を解析し,性能の向上とモデルトレーニングの容易化を図る。
我々は,提案手法の有効性を示すために,公開ベンチマークを用いたいくつかの手法によるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-06-14T14:22:22Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。