論文の概要: Multimodal Representation Learning Conditioned on Semantic Relations
- arxiv url: http://arxiv.org/abs/2508.17497v1
- Date: Sun, 24 Aug 2025 19:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.554753
- Title: Multimodal Representation Learning Conditioned on Semantic Relations
- Title(参考訳): 意味的関係に基づくマルチモーダル表現学習
- Authors: Yang Qiao, Yuntong Hu, Liang Zhao,
- Abstract要約: マルチモーダル表現学習はCLIPのような対照的なモデルで急速に進歩している。
本稿では,自然言語関係記述に基づくマルチモーダル表現学習フレームワークであるRelation-Conditioned Multimodal Learning RCMLを提案する。
提案手法では,意味的関係に関連付けられた多対多の学習ペアを構築し,関係誘導型クロスアテンション機構を導入する。
- 参考スコア(独自算出の注目度): 10.999120598129126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal representation learning has advanced rapidly with contrastive models such as CLIP, which align image-text pairs in a shared embedding space. However, these models face limitations: (1) they typically focus on image-text pairs, underutilizing the semantic relations across different pairs. (2) they directly match global embeddings without contextualization, overlooking the need for semantic alignment along specific subspaces or relational dimensions; and (3) they emphasize cross-modal contrast, with limited support for intra-modal consistency. To address these issues, we propose Relation-Conditioned Multimodal Learning RCML, a framework that learns multimodal representations under natural-language relation descriptions to guide both feature extraction and alignment. Our approach constructs many-to-many training pairs linked by semantic relations and introduces a relation-guided cross-attention mechanism that modulates multimodal representations under each relation context. The training objective combines inter-modal and intra-modal contrastive losses, encouraging consistency across both modalities and semantically related samples. Experiments on different datasets show that RCML consistently outperforms strong baselines on both retrieval and classification tasks, highlighting the effectiveness of leveraging semantic relations to guide multimodal representation learning.
- Abstract(参考訳): マルチモーダル表現学習は、画像とテキストのペアを共有埋め込み空間に配置するCLIPのようなコントラストモデルで急速に進歩している。
しかし、これらのモデルは、(1)画像とテキストのペアに焦点を合わせ、異なるペア間のセマンティックな関係を過小評価する。
2) 特定の部分空間や関係次元に沿った意味的アライメントの必要性を見越して, 文脈化のないグローバルな埋め込みと直接一致し, (3) モーダル内部の一貫性を限定した相互コントラストを強調する。
これらの課題に対処するため,自然言語による関係記述に基づくマルチモーダル表現学習フレームワークであるRelation-Conditioned Multimodal Learning RCMLを提案し,特徴抽出とアライメントの両方を導く。
提案手法では,意味関係に関連付けられた多対多対多対の学習ペアを構築し,各関係文脈下でのマルチモーダル表現を変調する関係誘導型クロスアテンション機構を導入する。
トレーニングの目的は、モダリティ間およびモダリティ内コントラスト損失を組み合わせ、モダリティとセマンティック関連サンプルの整合性を促進することである。
異なるデータセットの実験により、RCMLは検索タスクと分類タスクの両方において、強力なベースラインを一貫して上回り、意味的関係を利用してマルチモーダル表現学習を導く効果を強調している。
関連論文リスト
- Jointly Modeling Inter- & Intra-Modality Dependencies for Multi-modal Learning [42.16496299814368]
我々は、モーダリティ間の依存にのみ依存する従来のアプローチは、一般的に最適ではないかもしれないと論じる。
モーダリティ間の依存を捕捉・統合する言語間・モダリティ間モデリング(I2M2)フレームワークを提案する。
現実の医療と最先端のモデルを用いたビジョン・アンド・ザ・アーティカルなデータセットを用いて、我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-27T19:22:41Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Hierarchical Cross-Modality Semantic Correlation Learning Model for
Multimodal Summarization [4.714335699701277]
マルチモーダル出力(MSMO)によるマルチモーダル要約は、テキストコンテンツとビジュアルコンテンツの両方で要約を生成する。
従来のMSMOメソッドは、データ全体の表現を学習することで、異なるデータモダリティを区別できない方法で処理する。
マルチモーダルデータに存在するモーダル内およびモーダル間相関を学習するための階層的相互モーダル意味相関学習モデル(HCSCL)を提案する。
論文 参考訳(メタデータ) (2021-12-16T01:46:30Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。