論文の概要: Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs
- arxiv url: http://arxiv.org/abs/2604.14520v1
- Date: Thu, 16 Apr 2026 01:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.669667
- Title: Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs
- Title(参考訳): モダリティの連鎖:Omni-MLLMの静的融合から動的オーケストレーションへ
- Authors: Ziyang Luo, Nian Liu, Junwei Han,
- Abstract要約: カオス・オブ・モダリティ(Chain of Modality, CoM)は、マルチモーダル融合を受動的結合から動的オーケストレーションに移行するエージェントフレームワークである。
CoMはトレーニングフリーまたはデータ効率のSFT設定で動作し、様々なベンチマークで堅牢で一貫した一般化を実現する。
- 参考スコア(独自算出の注目度): 84.3271821505699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omni-modal Large Language Models (Omni-MLLMs) promise a unified integration of diverse sensory streams. However, recent evaluations reveal a critical performance paradox: unimodal baselines frequently outperform joint multimodal inference. We trace this perceptual fragility to the static fusion topologies universally employed by current models, identifying two structural pathologies: positional bias in sequential inputs and alignment traps in interleaved formats, which systematically distort attention regardless of task semantics. To resolve this functional rigidity, we propose Chain of Modality (CoM), an agentic framework that transitions multimodal fusion from passive concatenation to dynamic orchestration. CoM adaptively orchestrates input topologies, switching among parallel, sequential, and interleaved pathways to neutralize structural biases. Furthermore, CoM bifurcates cognitive execution into two task-aligned pathways: a streamlined ``Direct-Decide'' path for direct perception and a structured ``Reason-Decide'' path for analytical auditing. Operating in either a training-free or a data-efficient SFT setting, CoM achieves robust and consistent generalization across diverse benchmarks.
- Abstract(参考訳): Omni-MLLM (Omni-Modal Large Language Models) は様々な感覚ストリームの統合を約束する。
しかし、最近の評価では重要な性能パラドックスが示されており、単調なベースラインはしばしば関節マルチモーダル推論を上回っている。
我々は、この知覚的脆弱性を、現在のモデルで広く使われている静的融合トポロジーに遡り、シーケンシャル入力における位置バイアスと、インターリーブドフォーマットにおけるアライメントトラップの2つの構造的病理を同定し、タスクセマンティクスに関係なく体系的に注意を歪めている。
このような機能的剛性を解決するために,多モード融合を受動結合から動的オーケストレーションに移行するエージェントフレームワークであるChain of Modality (CoM)を提案する。
CoMは入力トポロジを適応的にオーケストレーションし、並列、シーケンシャル、インターリーブされた経路を切り替え、構造バイアスを中和する。
さらに、CoMは認知実行を、直接知覚のための「Direct-Decide」経路の合理化と、分析監査のための「Reason-Decide」経路の2つのタスク整列経路に分岐させる。
CoMはトレーニングフリーまたはデータ効率のSFT設定で動作し、様々なベンチマークで堅牢で一貫した一般化を実現する。
関連論文リスト
- SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data [31.146366498415784]
マルチモーダルセマンティックセグメンテーションは、リモートセンシング地球観測のための多様なセンサーからの補完情報を統合する。
IMSSは3つの主要な課題に直面している:マルチモーダル不均衡、支配的なモダリティが脆弱なモダリティを抑えること、スケール、形状、方向のクラス内変化、矛盾するキーと矛盾するセマンティック応答を生み出すクロスモーダル不均一。
本稿では,セマンティック・ガイド・モダリティ・アウェア(SGMA)フレームワークを提案する。セマンティック・モダリティ・アウェア(SGMA)フレームワークは,クラス内変動の低減とセマンティックガイダンスによる相互不整合の緩和を図りつつ,バランスの取れたマルチモーダル学習を実現する。
論文 参考訳(メタデータ) (2026-03-03T01:28:21Z) - Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Rethinking Layer-wise Model Merging through Chain of Merges [21.26982153528304]
Chain of Merges(CoM)は、層間で重みを順次マージし、アクティベーション統計を逐次更新するレイヤワイドマージ手順である。
標準ベンチマークの実験では、CoMが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-08-29T08:44:47Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。