論文の概要: Is Extending Modality The Right Path Towards Omni-Modality?
- arxiv url: http://arxiv.org/abs/2506.01872v1
- Date: Mon, 02 Jun 2025 17:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.618023
- Title: Is Extending Modality The Right Path Towards Omni-Modality?
- Title(参考訳): モダリティの拡張はオムニモダリティへの正しい道か?
- Authors: Tinghui Zhu, Kai Zhang, Muhao Chen, Yu Su,
- Abstract要約: 対象ドメインと言語データに基づいて,市販の言語モデルを微調整したマルチモーダルモデルのトレーニング手法であるモーダリティの拡張の効果について検討する。
これらのトレードオフを分析し、現在のアプローチによる真正のモダリティの実現可能性に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 34.79461922911039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omni-modal language models (OLMs) aim to integrate and reason over diverse input modalities--such as text, images, video, and audio--while maintaining strong language capabilities. Despite recent advancements, existing models, especially open-source ones, remain far from true omni-modality, struggling to generalize beyond the specific modality pairs they are trained on or to achieve strong performance when processing multi-modal inputs. We study the effect of extending modality, the dominant technique for training multimodal models, where an off-the-shelf language model is fine-tuned on target-domain and language data. Specifically, we investigate three key questions: (1) Does modality extension compromise core language abilities? (2) Can model merging effectively integrate independently fine-tuned modality-specific models to achieve omni-modality? (3) Does omni-modality extension lead to better knowledge sharing and generalization compared to sequential extension? Through extensive experiments, we analyze these trade-offs and provide insights into the feasibility of achieving true omni-modality using current approaches.
- Abstract(参考訳): Omni-Modal Language Model (OLM) は、テキスト、画像、ビデオ、オーディオなどの様々な入力モダリティを統合し、推論することを目的としており、強力な言語機能を維持している。
近年の進歩にもかかわらず、既存のモデル、特にオープンソースモデルは真のモダリティとは程遠いままであり、訓練された特定のモダリティペアを超えて一般化したり、マルチモーダル入力を処理する際に強力なパフォーマンスを達成するのに苦労している。
対象ドメインと言語データに基づいて,市販の言語モデルを微調整したマルチモーダルモデルのトレーニング手法であるモーダリティの拡張の効果について検討する。
具体的には、(1)モダリティ拡張はコア言語能力を損なうか?
2) モデルマージは、オムニモダリティを達成するために、独立して微調整モード特化モデルを統合することができるか?
(3)Omni-modality拡張は、逐次拡張と比較して知識共有と一般化を改善するか?
広範にわたる実験を通じて、これらのトレードオフを分析し、現在のアプローチを用いた真正のモダリティの実現可能性に関する洞察を提供する。
関連論文リスト
- Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment [88.72389428177942]
Olaはオムニモーダル言語モデルであり、画像、ビデオ、音声の理解間での競合的なパフォーマンスを実現する。
我々は、Olaを、この新興分野における将来の研究を進めるための、完全にオープンなオムニモーダル理解ソリューションにすることを目指している。
論文 参考訳(メタデータ) (2025-02-06T18:59:55Z) - OmniBench: Towards The Future of Universal Omni-Language Models [63.16606414452612]
OmniBenchは、視覚的、音響的、テキスト的入力を同時に認識し、解釈し、推論する能力を評価するために設計された新しいベンチマークである。
評価の結果,オープンソース OLM は三モーダル文脈における命令追従や推論に重大な制限があることが明らかとなった。
我々は,OLM性能を向上させるため,より堅牢な3モーダル統合技術とトレーニング戦略の開発を提唱する。
論文 参考訳(メタデータ) (2024-09-23T17:59:05Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。