論文の概要: OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All
- arxiv url: http://arxiv.org/abs/2405.16108v1
- Date: Sat, 25 May 2024 07:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:00:23.551134
- Title: OmniBind: Teach to Build Unequal-Scale Modality Interaction for Omni-Bind of All
- Title(参考訳): OmniBind:OmniBindのための不平等なスケールのモダリティインタラクションを構築するための教育
- Authors: Yuanhuiyi Lyu, Xu Zheng, Dahun Kim, Lin Wang,
- Abstract要約: OmniBindは、あらゆるモダリティの組み合わせと相互作用を実現できる新しい2段階学習フレームワークである。
認識タスクの実験は、任意のモダリティの組み合わせ設定で平均4.05%の性能向上を示す。
- 参考スコア(独自算出の注目度): 16.670873031911285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research on multi-modal learning dominantly aligns the modalities in a unified space at training, and only a single one is taken for prediction at inference. However, for a real machine, e.g., a robot, sensors could be added or removed at any time. Thus, it is crucial to enable the machine to tackle the mismatch and unequal-scale problems of modality combinations between training and inference. In this paper, we tackle these problems from a new perspective: "Modalities Help Modalities". Intuitively, we present OmniBind, a novel two-stage learning framework that can achieve any modality combinations and interaction. It involves teaching data-constrained, a.k.a, student, modalities to be aligned with the well-trained data-abundant, a.k.a, teacher, modalities. This subtly enables the adaptive fusion of any modalities to build a unified representation space for any combinations. Specifically, we propose Cross-modal Alignment Distillation (CAD) to address the unequal-scale problem between student and teacher modalities and effectively align student modalities into the teacher modalities' representation space in stage one. We then propose an Adaptive Fusion (AF) module to fuse any modality combinations and learn a unified representation space in stage two. To address the mismatch problem, we aggregate existing datasets and combine samples from different modalities by the same semantics. This way, we build the first dataset for training and evaluation that consists of teacher (image, text) and student (touch, thermal, event, point cloud, audio) modalities and enables omni-bind for any of them. Extensive experiments on the recognition task show performance gains over prior arts by an average of 4.05 % on the arbitrary modality combination setting. It also achieves state-of-the-art performance for a single modality, e.g., touch, with a 4.34 % gain.
- Abstract(参考訳): マルチモーダル学習の研究は、訓練時の統一空間におけるモダリティを支配的に整列させ、推論の予測のために1つだけを取る。
しかし、例えばロボットのような本物のマシンでは、センサーをいつでも追加したり、削除したりできる。
したがって、機械がトレーニングと推論のモダリティの組み合わせのミスマッチや不等スケールの問題に対処できることが不可欠である。
本稿では,モーダリティのモダリティを支援するモダリティ(Modalities Help Modalities)という新たな視点から,これらの課題に取り組む。
直感的には、あらゆるモダリティの組み合わせと相互作用を実現できる新しい2段階学習フレームワークであるOmniBindを提示する。
データ制約のあるa.k.a、学生、モダリティを、よく訓練されたデータ制約のあるa.k.a、教師、モダリティに合わせるように教える。
これにより、任意のモダリティの適応的融合が任意の組合せに対する統一表現空間を構築することができる。
具体的には,学生と教師のモダリティの不平等な問題に対処し,学生のモダリティを教師のモダリティ表現空間に効果的に整合させるために,CAD(クロスモーダルアライメント蒸留)を提案する。
次に、任意のモダリティ結合を融合し、ステージ2で統一表現空間を学ぶための適応核融合(AF)モジュールを提案する。
ミスマッチ問題に対処するため、既存のデータセットを集約し、異なるモダリティのサンプルを同じ意味論で組み合わせる。
このようにして、教師(画像、テキスト)と学生(タッチ、サーマル、イベント、ポイントクラウド、オーディオ)からなるトレーニングと評価のための最初のデータセットを構築し、それらすべてに対してomni-bindを可能にする。
認識タスクの広範囲な実験は、任意のモダリティの組み合わせ設定で平均4.05%の性能向上を示す。
また、1つのモダリティ(例えばタッチ)に対する最先端のパフォーマンスも4.34 %向上した。
関連論文リスト
- Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations [16.036997801745905]
マルチモーダル学習は、機械学習モデルが多様なデータソースを融合し利用できるようにする上で重要な役割を果たす。
ImageBindのような最近のバインディング手法では、固定アンカーのモダリティを使用して、アンカーのモダル埋め込み空間内のマルチモーダルデータをアライメントする。
我々はCentroBindを提案する。CentroBindは、固定アンカーを必要としない、シンプルだが強力なアプローチである。
論文 参考訳(メタデータ) (2024-10-02T23:19:23Z) - OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces [67.07083389543799]
我々は,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindを提案する。
全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。
実験では、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、多様なアプリケーションに対するその大きな可能性を強調している。
論文 参考訳(メタデータ) (2024-07-16T16:24:31Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences [16.38826799727453]
融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。
本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。
実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2022-11-12T13:05:28Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。