Toward Native Multimodal Modeling: A Roadmap
Abstractの概要
本論文は、モジュール型の遅延融合(late-fusion)システムから、モダリティが本質的に統合されるアーキテクチャへの移行として位置づけられる、ネイティブマルチモーダルモデリング(NMM)のロードマップおよびサーベイです。中間融合(mid-fusion)と早期融合(early-fusion)のレジームを区別することで何が「ネイティブ」であるかを公式化し、さらにモデルを入出力の対称性によってMulti-to-Text、Multi-to-Target、Multi-to-Multiのカテゴリに分類しています。アーキテクチャにとどまらず、データセット、トレーニング、推論と展開、評価、および今後の研究の方向性を含むNMMのパイプライン全体をレビューしています。
新規性
本論文の主な新規性は、ネイティブマルチモーダルモデリングのための形式化された設計フレームワークと構造的分類法を提示した点にあります。融合の深さと入出力モダリティの対称性に基づいてアーキテクチャのネイティブ性の明確な定義を提案し、これまで断片化されていた設計空間を体系化しています。
成果
主な成果は、ネイティブマルチモーダルモデル、その技術的ボトルネック、およびアーキテクチャ、データ、トレーニング、推論、評価にわたる対応する解決パターンを体系化する包括的なロードマップの構築です。分野の構造化された統合と、統合されたMulti-to-Multiマルチモーダルシステムに向けた将来のアジェンダを提供します。
論文の注目点
- 本論文は、中間融合および早期融合アーキテクチャを非ネイティブな遅延融合アプローチから分離することにより、ネイティブマルチモーダルモデリングを定義している。
- ネイティブシステムをMulti-to-Text、Multi-to-Target、Multi-to-Multiのパラダイムに分類し、異なる入出力モダリティのフローを明確化している。
- 代表的なモデル、データセットのタイプ、学習手法、推論の課題、将来の軌跡を網羅し、エンドツーエンドのNMMスタックを調査している。
参考リンク
- arXiv: https://arxiv.org/abs/2605.25343v1
- Fugu-MT: https://fugumt.com/fugumt/paper_check/2605.25343v1
- Hugging Face Papers: https://huggingface.co/papers/2605.25343