論文の概要: Gramian Multimodal Representation Learning and Alignment
- arxiv url: http://arxiv.org/abs/2412.11959v1
- Date: Mon, 16 Dec 2024 16:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:32.635354
- Title: Gramian Multimodal Representation Learning and Alignment
- Title(参考訳): 文法的マルチモーダル表現学習とアライメント
- Authors: Giordano Cicchetti, Eleonora Grassucci, Luigi Sigillo, Danilo Comminiello,
- Abstract要約: グラミアン表現アライメント尺度(GRAM)について紹介する。
GRAMは、モダリティ埋め込みが横たわる高次元空間において、$n$モダリティを学習し、アライメントする。
GRAMに基づく新しいコントラスト損失関数は、高次元埋め込み空間におけるマルチモーダルモデルのアライメントを高める。
- 参考スコア(独自算出の注目度): 5.793118803623239
- License:
- Abstract: Human perception integrates multiple modalities, such as vision, hearing, and language, into a unified understanding of the surrounding reality. While recent multimodal models have achieved significant progress by aligning pairs of modalities via contrastive learning, their solutions are unsuitable when scaling to multiple modalities. These models typically align each modality to a designated anchor without ensuring the alignment of all modalities with each other, leading to suboptimal performance in tasks requiring a joint understanding of multiple modalities. In this paper, we structurally rethink the pairwise conventional approach to multimodal learning and we present the novel Gramian Representation Alignment Measure (GRAM), which overcomes the above-mentioned limitations. GRAM learns and then aligns $n$ modalities directly in the higher-dimensional space in which modality embeddings lie by minimizing the Gramian volume of the $k$-dimensional parallelotope spanned by the modality vectors, ensuring the geometric alignment of all modalities simultaneously. GRAM can replace cosine similarity in any downstream method, holding for 2 to $n$ modality and providing more meaningful alignment with respect to previous similarity measures. The novel GRAM-based contrastive loss function enhances the alignment of multimodal models in the higher-dimensional embedding space, leading to new state-of-the-art performance in downstream tasks such as video-audio-text retrieval and audio-video classification. The project page, the code, and the pretrained models are available at https://ispamm.github.io/GRAM/.
- Abstract(参考訳): 人間の知覚は視覚、聴覚、言語などの複数のモダリティを周囲の現実の統一的な理解に統合する。
最近のマルチモーダルモデルは、コントラッシブラーニングによって一対のモダリティを整列させることによって大きな進歩を遂げているが、それらの解は複数のモダリティへのスケーリングには適さない。
これらのモデルは通常、すべてのモダリティを互いに整合させることなく、それぞれのモダリティを指定されたアンカーに整列させ、複数のモダリティを共同で理解する必要のあるタスクにおいて、最適以下のパフォーマンスをもたらす。
本稿では,マルチモーダル学習における対角的アプローチを構造的に再考し,上記の制約を克服した新しいグラム表現アライメント尺度(GRAM)を提案する。
GRAMは、モダリティ埋め込みが成り立つ高次元空間において、モダリティベクトルによって張られる$k$次元平行トミープのグラミアン体積を最小化し、すべてのモダリティの幾何的アライメントを同時に確保することによって、学習し、直接$n$モダリティをアライメントする。
GRAMは、ダウンストリーム法でコサイン類似性を置き換えることができ、2から$n$のモダリティを持ち、以前の類似性対策に関してより有意義なアライメントを提供する。
新たなGRAMベースのコントラスト損失関数により,高次元埋め込み空間におけるマルチモーダルモデルのアライメントが向上し,映像音声テキスト検索や音声映像分類などの下流タスクにおける最先端性能が向上する。
プロジェクトページ、コード、事前訓練済みのモデルはhttps://ispamm.github.io/GRAM/.com/で入手できる。
関連論文リスト
- Anchors Aweigh! Sail for Optimal Unified Multi-Modal Representations [16.036997801745905]
マルチモーダル学習は、機械学習モデルが多様なデータソースを融合し利用できるようにする上で重要な役割を果たす。
ImageBindのような最近のバインディング手法では、固定アンカーのモダリティを使用して、アンカーのモダル埋め込み空間内のマルチモーダルデータをアライメントする。
我々はCentroBindを提案する。CentroBindは、固定アンカーを必要としない、シンプルだが強力なアプローチである。
論文 参考訳(メタデータ) (2024-10-02T23:19:23Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability [26.181345324220743]
MLLM(Multimodal Large Language Models)は、人工知能(AGI)の探索において重要であると考えられている。
MLLMのコアは、クロスモーダルアライメントを実現する能力にある。
彼らの成功にもかかわらず、これらのモデル内のアライメント機能のモデリングには欠点がある。
論文 参考訳(メタデータ) (2024-05-23T03:07:56Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - ONE-PEACE: Exploring One General Representation Model Toward Unlimited
Modalities [71.15303690248021]
ONE-PEACEは、4Bパラメータを持つ高モデルで、視覚、オーディオ、言語モダリティ間の表現をシームレスに整列し統合することができる。
ONE-PEACEのアーキテクチャは、モダリティアダプタ、共有自己アテンション層、およびモダリティFFNからなる。
スケーラビリティに優しいアーキテクチャと事前トレーニングタスクにより、ONE-PEACEは無制限のモダリティに拡張する可能性がある。
論文 参考訳(メタデータ) (2023-05-18T17:59:06Z) - FormNetV2: Multimodal Graph Contrastive Learning for Form Document
Information Extraction [43.17713130538514]
集中型グラフコントラスト学習戦略を導入し、全てのモダリティに対する自己教師付き事前学習を1つの損失で統一する。
FormNetV2は、よりコンパクトなモデルサイズでFUNSD、CORD、SROIE、Paymentベンチマーク上で、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2023-05-04T05:02:04Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。