FuguReport

Toward Native Multimodal Modeling: A Roadmap

著者 Siyu An, Junru Lu, Junnan Dong, Qiufeng Wang, Yinghui Li, Weizhi Fei, Zichao Yu, Zheng Yuan, Biao Liu, Haopeng Wang, Renzhao Liang, Yixuan Yang, Yunhang Shen, Bo Ke, Keyu Chen, Linhao Luo, Difan Zou, Xiao Huang, Di Yin, Ruizhi Qiao, Xing Sun
所属 Tencent / The University of Hong Kong / Monash University / Tsinghua University / The Hong Kong Polytechnic University / University of Warwick
カテゴリ Method / Multimodal Modeling / Native multimodal model design space, Task / Reasoning / Modality-independent inference, Research / Modeling Frameworks / Roadmap for native multimodal architectures
ライセンス CC BY 4.0

Abstractの概要

本論文は、モジュール型の遅延融合(late-fusion)システムから、モダリティが本質的に統合されるアーキテクチャへの移行として位置づけられる、ネイティブマルチモーダルモデリング(NMM)のロードマップおよびサーベイです。中間融合(mid-fusion)と早期融合(early-fusion)のレジームを区別することで何が「ネイティブ」であるかを公式化し、さらにモデルを入出力の対称性によってMulti-to-Text、Multi-to-Target、Multi-to-Multiのカテゴリに分類しています。アーキテクチャにとどまらず、データセット、トレーニング、推論と展開、評価、および今後の研究の方向性を含むNMMのパイプライン全体をレビューしています。

新規性

本論文の主な新規性は、ネイティブマルチモーダルモデリングのための形式化された設計フレームワークと構造的分類法を提示した点にあります。融合の深さと入出力モダリティの対称性に基づいてアーキテクチャのネイティブ性の明確な定義を提案し、これまで断片化されていた設計空間を体系化しています。

成果

主な成果は、ネイティブマルチモーダルモデル、その技術的ボトルネック、およびアーキテクチャ、データ、トレーニング、推論、評価にわたる対応する解決パターンを体系化する包括的なロードマップの構築です。分野の構造化された統合と、統合されたMulti-to-Multiマルチモーダルシステムに向けた将来のアジェンダを提供します。

論文の注目点

  1. 本論文は、中間融合および早期融合アーキテクチャを非ネイティブな遅延融合アプローチから分離することにより、ネイティブマルチモーダルモデリングを定義している。
  2. ネイティブシステムをMulti-to-Text、Multi-to-Target、Multi-to-Multiのパラダイムに分類し、異なる入出力モダリティのフローを明確化している。
  3. 代表的なモデル、データセットのタイプ、学習手法、推論の課題、将来の軌跡を網羅し、エンドツーエンドのNMMスタックを調査している。

参考リンク

このページはGPT-5、Claude Opus 4、Gemini 3、Gemini 3.1 Flash Image 及びその上位バージョンなどの生成AIを用いて作成されています。内容の保証は一切できません。