論文の概要: Metis-HOME: Hybrid Optimized Mixture-of-Experts for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2510.20519v1
- Date: Thu, 23 Oct 2025 13:02:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.928934
- Title: Metis-HOME: Hybrid Optimized Mixture-of-Experts for Multimodal Reasoning
- Title(参考訳): Metis-HOME:マルチモーダル推論のためのハイブリッド最適化ミキサー
- Authors: Xiaohan Lan, Fanfan Liu, Haibo Qiu, Siqi Yang, Delian Ruan, Peng Shi, Lin Ma,
- Abstract要約: マルチモーダルな大推論モデルには 2つの重要な制限があります
単純なクエリでも計算コストのかかる推論を採用する傾向があり、効率の悪さにつながる。
We propose Metis-HOME: a Hybrid Optimized Mixture-of-Experts framework。
- 参考スコア(独自算出の注目度): 16.309345268949745
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Inspired by recent advancements in LLM reasoning, the field of multimodal reasoning has seen remarkable progress, achieving significant performance gains on intricate tasks such as mathematical problem-solving. Despite this progress, current multimodal large reasoning models exhibit two key limitations. They tend to employ computationally expensive reasoning even for simple queries, leading to inefficiency. Furthermore, this focus on specialized reasoning often impairs their broader, more general understanding capabilities. In this paper, we propose Metis-HOME: a Hybrid Optimized Mixture-of-Experts framework designed to address this trade-off. Metis-HOME enables a ''Hybrid Thinking'' paradigm by structuring the original dense model into two distinct expert branches: a thinking branch tailored for complex, multi-step reasoning, and a non-thinking branch optimized for rapid, direct inference on tasks like general VQA and OCR. A lightweight, trainable router dynamically allocates queries to the most suitable expert. We instantiate Metis-HOME by adapting the Qwen2.5-VL-7B into an MoE architecture. Comprehensive evaluations reveal that our approach not only substantially enhances complex reasoning abilities but also improves the model's general capabilities, reversing the degradation trend observed in other reasoning-specialized models. Our work establishes a new paradigm for building powerful and versatile MLLMs, effectively resolving the prevalent reasoning-vs-generalization dilemma.
- Abstract(参考訳): LLM推論の最近の進歩に触発されて、マルチモーダル推論の分野は目覚ましい進歩を遂げ、数学的な問題解決のような複雑なタスクにおいて顕著なパフォーマンス向上を達成した。
この進歩にもかかわらず、現在のマルチモーダルな大推論モデルには2つの重要な制限がある。
単純なクエリでも計算コストのかかる推論を採用する傾向があり、効率の悪さにつながる。
さらに、専門的な推論に焦点をあてることによって、より広い、より一般的な理解能力が損なわれることも多い。
本稿では,このトレードオフに対応するために設計されたハイブリッド・オプティマイズ・オブ・エキスパート・フレームワークであるMetis-HOMEを提案する。
Metis-HOMEは'Hybrid Thinking'パラダイムを実現し、オリジナルの高密度モデルを2つの専門ブランチに構成する。
軽量でトレーニング可能なルータは、クエリを最も適した専門家に動的に割り当てる。
我々は、Qwen2.5-VL-7BをMoEアーキテクチャに適応させることで、Metis-HOMEをインスタンス化する。
包括的評価から,本手法は複雑な推論能力を高めるだけでなく,モデル全体の能力も向上し,他の推論特化モデルで観測される劣化傾向を逆転させる。
我々の研究は、強力で汎用的なMLLMを構築するための新しいパラダイムを確立し、一般的な推論-vs-一般化ジレンマを効果的に解決する。
関連論文リスト
- Think Then Embed: Generative Context Improves Multimodal Embedding [47.493748186420966]
本稿では,ユニバーサル・マルチモーダル・エンベディング (UME) のためのThink-Then-Embed (TTE) フレームワークを提案する。
強力なMLLM推論器を利用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回った。
論文 参考訳(メタデータ) (2025-10-06T16:53:56Z) - Advancing Multi-Step Mathematical Reasoning in Large Language Models through Multi-Layered Self-Reflection with Auto-Prompting [0.0]
大規模言語モデル(LLM)における多段階数学的推論を強化する新しい手法を提案する。
Multi-Layered Self-Reflection with Auto-Prompting (MAPS)フレームワークは、Chain of Thought (CoT)、Self-Reflection、Auto-Promptingといったテクニックを統合している。
実験により、MAPSは標準のCoTよりも大幅に優れ、推論最適化モデルと競合する結果が得られることが示された。
論文 参考訳(メタデータ) (2025-06-30T14:18:35Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。