論文の概要: BrokenBind: Universal Modality Exploration beyond Dataset Boundaries
- arxiv url: http://arxiv.org/abs/2602.06451v1
- Date: Fri, 06 Feb 2026 07:26:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.280487
- Title: BrokenBind: Universal Modality Exploration beyond Dataset Boundaries
- Title(参考訳): BrokenBind: データセット境界を越えたユニバーサルなモダリティ探索
- Authors: Zhuo Huang, Runnan Chen, Bo Han, Gang Niu, Masashi Sugiyama, Tongliang Liu,
- Abstract要約: 我々はBrokenBindを紹介した。BrokenBindは、異なるデータセットから提示されるバインディングのモダリティに焦点を当てている。
私たちのフレームワークでは、データセットの制限なしに、任意の2つのモダリティを結び付けることができます。
- 参考スコア(独自算出の注目度): 112.81381711545043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal learning combines various modalities to provide a comprehensive understanding of real-world problems. A common strategy is to directly bind different modalities together in a specific joint embedding space. However, the capability of existing methods is restricted within the modalities presented in the given dataset, thus they are biased when generalizing to unpresented modalities in downstream tasks. As a result, due to such inflexibility, the viability of previous methods is seriously hindered by the cost of acquiring multi-modal datasets. In this paper, we introduce BrokenBind, which focuses on binding modalities that are presented from different datasets. To achieve this, BrokenBind simultaneously leverages multiple datasets containing the modalities of interest and one shared modality. Though the two datasets do not correspond to each other due to distribution mismatch, we can capture their relationship to generate pseudo embeddings to fill in the missing modalities of interest, enabling flexible and generalized multi-modal learning. Under our framework, any two modalities can be bound together, free from the dataset limitation, to achieve universal modality exploration. Further, to reveal the capability of our method, we study intensified scenarios where more than two datasets are needed for modality binding and show the effectiveness of BrokenBind in low-data regimes. Through extensive evaluation, we carefully justify the superiority of BrokenBind compared to well-known multi-modal baseline methods.
- Abstract(参考訳): マルチモーダル学習は、現実世界の問題を包括的に理解するために様々なモダリティを組み合わせる。
一般的な戦略は、特定の関節埋め込み空間において、異なるモジュラリティを直接結合することである。
しかし、既存の手法の能力は、与えられたデータセットに示されるモダリティの範囲内で制限されるため、下流タスクで表現されないモダリティに一般化する際にバイアスを受ける。
その結果, 従来手法の可利用性は, マルチモーダルデータセットの取得コストによって著しく損なわれている。
本稿では,BrokenBindを紹介する。BrokenBindは,異なるデータセットから提示されるバインディングのモダリティに着目している。
これを実現するために、BrokenBindは、関心のモダリティと1つの共有モダリティを含む複数のデータセットを同時に活用する。
2つのデータセットは、分布ミスマッチのため、互いに対応しないが、それらの関係を捉えて擬似埋め込みを生成し、興味の欠如を補い、柔軟で一般化されたマルチモーダル学習を可能にする。
我々の枠組みの下では、任意の2つのモダリティは、データセットの制限なしに結合することができ、普遍的なモダリティ探索を達成することができる。
さらに,本手法の有効性を明らかにするために,2つ以上のデータセットがモダリティ結合に必要となる拡張シナリオについて検討し,BrokenBindの有効性を示す。
広範に評価することで、よく知られたマルチモーダルベースライン法と比較して、BrokenBindの優位性を慎重に正当化する。
関連論文リスト
- Maximal Matching Matters: Preventing Representation Collapse for Robust Cross-Modal Retrieval [0.5999777817331317]
モダリティの異なるコンテンツ間の多様な関連性のため、モダリティ間の画像テキスト検索は困難である。
従来の手法では、各サンプルのセマンティクスを表現するために、単一ベクトルの埋め込みを学ぶ。
各サンプルを複数の埋め込みで表現するセットベースのアプローチは、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-06-26T17:55:34Z) - Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations [22.45586503859047]
多様なデータソースを効果的に統合するためには,マルチモーダル学習における統一表現空間が不可欠である。
ImageBindのような最近のバインディング手法は、通常、複数のモーダルデータを整列するために単一の固定アンカーモダリティに依存している。
我々は,我々のフレームワークであるCentroBindで実証された適応型アンカーバインディング手法の必要性を提案する。
論文 参考訳(メタデータ) (2024-10-02T23:19:23Z) - Mutual Information-based Representations Disentanglement for Unaligned Multimodal Language Sequences [25.73415065546444]
不整合多モーダル言語列の鍵となる課題は、様々なモーダルからの情報を統合して洗練された多モーダル関節表現を得ることである。
非整合多モーダル言語系列に対する相互情報に基づく表現不整合(MIRD)手法を提案する。
論文 参考訳(メタデータ) (2024-09-19T02:12:26Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。
既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。
A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文 参考訳(メタデータ) (2023-03-13T17:01:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。