論文の概要: Partitioner Guided Modal Learning Framework
- arxiv url: http://arxiv.org/abs/2507.11661v1
- Date: Tue, 15 Jul 2025 18:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.115742
- Title: Partitioner Guided Modal Learning Framework
- Title(参考訳): パーティショナーガイドによるモーダル学習フレームワーク
- Authors: Guimin Hu, Yi Xin, Lijie Hu, Zhihong Zhu, Hasti Seifi,
- Abstract要約: 本稿では、モーダル分割器、ユニモーダル学習器、ペアモーダル学習器、ユニペアモーダル復号器からなる分割器誘導型モーダル学習フレームワークPgMを提案する。
PgMには3つの大きな利点がある: 1) ユニモーダルとペアモードの特徴の徹底的な学習、2) 多様な下流タスクに適合するユニモーダルとペアモード表現の柔軟な分布調整、3) モダリティと分割の異なる学習率。
- 参考スコア(独自算出の注目度): 7.970271770162258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning benefits from multiple modal information, and each learned modal representations can be divided into uni-modal that can be learned from uni-modal training and paired-modal features that can be learned from cross-modal interaction. Building on this perspective, we propose a partitioner-guided modal learning framework, PgM, which consists of the modal partitioner, uni-modal learner, paired-modal learner, and uni-paired modal decoder. Modal partitioner segments the learned modal representation into uni-modal and paired-modal features. Modal learner incorporates two dedicated components for uni-modal and paired-modal learning. Uni-paired modal decoder reconstructs modal representation based on uni-modal and paired-modal features. PgM offers three key benefits: 1) thorough learning of uni-modal and paired-modal features, 2) flexible distribution adjustment for uni-modal and paired-modal representations to suit diverse downstream tasks, and 3) different learning rates across modalities and partitions. Extensive experiments demonstrate the effectiveness of PgM across four multimodal tasks and further highlight its transferability to existing models. Additionally, we visualize the distribution of uni-modal and paired-modal features across modalities and tasks, offering insights into their respective contributions.
- Abstract(参考訳): マルチモーダル学習は、複数のモーダル情報から恩恵を受け、各学習されたモーダル表現は、ユニモーダルトレーニングから学習できるユニモーダルと、クロスモーダルインタラクションから学習できるペアモーダルに分けることができる。
この観点から,モーダルパーティショナ,ユニモーダルラーナ,ペアモーダルラーナ,ユニペアモーダルデコーダからなるパーティショナ誘導型モーダルラーニングフレームワークPgMを提案する。
Modal partitionerは学習したモーダル表現をユニモーダルとペアモーダルに分割する。
Modal Learningerは、ユニモーダル学習とペアモーダル学習のための2つの専用コンポーネントを組み込んでいる。
Uni-paired modal decoder は、uni-modal と paired-modal の特徴に基づいてモーダル表現を再構成する。
PgMには3つの利点がある。
1)ユニモーダルとペアモーダルの特徴の徹底的な学習。
2 多様な下流業務に適した一様・一様・一様表現の柔軟な分布調整
3) モダリティと分割の異なる学習率。
大規模な実験は、4つのマルチモーダルタスクにおけるPgMの有効性を実証し、既存のモデルへの転送性をさらに強調する。
さらに、モダリティとタスクをまたいだユニモーダルとペアモーダルの分布を可視化し、それぞれのコントリビューションに関する洞察を提供する。
関連論文リスト
- Harmony: A Unified Framework for Modality Incremental Learning [81.13765007314781]
本稿では,連続的に進化するモーダルシーケンスを横断するインクリメンタル学習が可能な統一モデルの実現可能性について検討する。
本研究では,適応的アライメントと知識保持を実現するために,Harmonyという新しいフレームワークを提案する。
提案手法は適応性のある特徴変調と累積的モーダルブリッジングを導入する。
論文 参考訳(メタデータ) (2025-04-17T06:35:01Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Turbo your multi-modal classification with contrastive learning [17.983460380784337]
本稿では,マルチモーダル理解を促進するために,$Turbo$と呼ばれる新しいコントラスト学習戦略を提案する。
具体的には、マルチモーダルデータペアは、異なる隠されたドロップアウトマスクでフォワードパスを2回送って、各モダリティに対して2つの異なる表現を得る。
これらの表現により、トレーニングのための複数のインモーダルおよびクロスモーダルのコントラスト目的が得られる。
論文 参考訳(メタデータ) (2024-09-14T03:15:34Z) - Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。
本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:11Z) - mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with
Modality Collaboration [74.31268379055201]
mPLUG-Owl2は多目的なマルチモーダル言語モデルである。
効果的にモダリティのコラボレーションを活用して、テキストとマルチモーダルの両方のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-11-07T14:21:29Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。