論文の概要: A Framework for Multi-modal Learning: Jointly Modeling Inter- & Intra-Modality Dependencies
- arxiv url: http://arxiv.org/abs/2405.17613v1
- Date: Mon, 27 May 2024 19:22:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 23:21:23.729307
- Title: A Framework for Multi-modal Learning: Jointly Modeling Inter- & Intra-Modality Dependencies
- Title(参考訳): マルチモーダル学習のためのフレームワーク:モーダル間依存とモーダル内依存を併用したモデリング
- Authors: Divyam Madaan, Taro Makino, Sumit Chopra, Kyunghyun Cho,
- Abstract要約: 我々は、モーダリティ間の依存にのみ依存する従来のアプローチは、一般的に最適ではないかもしれないと論じる。
モーダリティ間の依存を捕捉・統合する言語間・モダリティ間モデリング(I2M2)フレームワークを提案する。
現実の医療と最先端のモデルを用いたビジョン・アンド・ザ・アーティカルなデータセットを用いて、我々のアプローチを評価する。
- 参考スコア(独自算出の注目度): 42.16496299814368
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Supervised multi-modal learning involves mapping multiple modalities to a target label. Previous studies in this field have concentrated on capturing in isolation either the inter-modality dependencies (the relationships between different modalities and the label) or the intra-modality dependencies (the relationships within a single modality and the label). We argue that these conventional approaches that rely solely on either inter- or intra-modality dependencies may not be optimal in general. We view the multi-modal learning problem from the lens of generative models where we consider the target as a source of multiple modalities and the interaction between them. Towards that end, we propose inter- & intra-modality modeling (I2M2) framework, which captures and integrates both the inter- and intra-modality dependencies, leading to more accurate predictions. We evaluate our approach using real-world healthcare and vision-and-language datasets with state-of-the-art models, demonstrating superior performance over traditional methods focusing only on one type of modality dependency.
- Abstract(参考訳): 教師付きマルチモーダル学習では、複数のモーダルをターゲットラベルにマッピングする。
この分野での以前の研究は、モダリティ間の依存関係(異なるモダリティとラベルの関係)またはモダリティ間の依存関係(単一のモダリティとラベル内の関係)の分離に焦点を合わせてきた。
モーダリティ間の依存にのみ依存する従来のアプローチは、一般的には最適ではないかもしれない、と我々は主張する。
生成モデルのレンズからマルチモーダル学習の問題を見て、ターゲットを複数のモーダルのソースとみなし、それら間の相互作用を考察する。
そこで本研究では、モダリティ間の依存関係とモダリティ間の依存関係をキャプチャし、統合し、より正確な予測を可能にする、モダリティ間モデリング(I2M2)フレームワークを提案する。
我々は、現実のヘルスケアと最先端のモデルを用いたビジョン・アンド・ランゲージデータセットを用いて、我々のアプローチを評価し、一種類のモダリティ依存にのみ焦点をあてた従来の手法よりも優れたパフォーマンスを示す。
関連論文リスト
- Leveraging Intra-modal and Inter-modal Interaction for Multi-Modal Entity Alignment [27.28214706269035]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なるマルチモーダル・ナレッジ・グラフ(MMKG)間で等価なエンティティ・ペアを識別することを目的としている。
本稿では,マルチモーダルエンティティアライメントのための多言語インタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:43:11Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。