論文の概要: A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity
- arxiv url: http://arxiv.org/abs/2509.24734v1
- Date: Mon, 29 Sep 2025 12:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.991829
- Title: A TRIANGLE Enables Multimodal Alignment Beyond Cosine Similarity
- Title(参考訳): トリガングルはコサインの類似性を超えてマルチモーダルアライメントを可能にする
- Authors: Giordano Cicchetti, Eleonora Grassucci, Danilo Comminiello,
- Abstract要約: マルチモーダル学習は、人工知能システムの進歩において重要な役割を担っている。
現在の最先端モデルは、完全にマルチモーダルなモデルの開発が成功しないような厳しい限界に悩まされている。
本稿では,モダリティ埋め込みにより,高次元空間で直接計算される新しい類似度尺度であるTRIANGLEを提案する。
- 参考スコア(独自算出の注目度): 15.387737375519286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning plays a pivotal role in advancing artificial intelligence systems by incorporating information from multiple modalities to build a more comprehensive representation. Despite its importance, current state-of-the-art models still suffer from severe limitations that prevent the successful development of a fully multimodal model. Such methods may not provide indicators that all the involved modalities are effectively aligned. As a result, some modalities may not be aligned, undermining the effectiveness of the model in downstream tasks where multiple modalities should provide additional information that the model fails to exploit. In this paper, we present TRIANGLE: TRI-modAl Neural Geometric LEarning, the novel proposed similarity measure that is directly computed in the higher-dimensional space spanned by the modality embeddings. TRIANGLE improves the joint alignment of three modalities via a triangle-area similarity, avoiding additional fusion layers or pairwise similarities. When incorporated in contrastive losses replacing cosine similarity, TRIANGLE significantly boosts the performance of multimodal modeling, while yielding interpretable alignment rationales. Extensive evaluation in three-modal tasks such as video-text and audio-text retrieval or audio-video classification, demonstrates that TRIANGLE achieves state-of-the-art results across different datasets improving the performance of cosine-based methods up to 9 points of Recall@1.
- Abstract(参考訳): マルチモーダル学習は、より包括的な表現を構築するために、複数のモーダルからの情報を取り入れることで、人工知能システムの進化において重要な役割を果たす。
現在の最先端モデルは、その重要性にもかかわらず、完全なマルチモーダルモデルの開発が成功しないような厳しい限界に悩まされている。
このような手法は、すべてのモダリティが効果的に整列していることを示す指標を提供しないかもしれない。
その結果、いくつかのモダリティは整列せず、複数のモダリティがモデルが利用できない追加情報を提供するべき下流タスクにおけるモデルの有効性を損なう可能性がある。
本稿では, TRI-modAl Neural Geometric LEarning(TRI-modAl Neural Geometric LEarning, TRI-modAl Neural Geometric LEarning)を提案する。
TRIANGLEは三角形-領域の類似性によって3つのモードの結合アライメントを改善し、追加の融合層やペアの類似性を避ける。
コサイン類似性を代替する対照的な損失を組み込むと、TRIANGLEは解釈可能なアライメントの合理性を得ながら、マルチモーダルモデリングの性能を大幅に向上させる。
ビデオテキスト検索やオーディオテキスト検索やオーディオビデオ分類といった3つのモードタスクにおける広範囲な評価は、TRIANGLEがRecall@1の9ポイントまでのコサインベースのメソッドのパフォーマンスを改善するために、異なるデータセット間で最先端の結果を達成することを実証している。
関連論文リスト
- TSVC:Tripartite Learning with Semantic Variation Consistency for Robust Image-Text Retrieval [11.874979105806243]
クロスモーダル検索は意味的関連性を通して異なるモダリティの下でデータをマップする。
既存のアプローチでは、データペアが適切に整合しており、広く存在するアノテーションノイズを無視していると暗黙的に仮定している。
本稿では,画像テキスト検索のための意味変化一貫性(TSVC)を用いた三部学習を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:05:08Z) - Multi-modal Relation Distillation for Unified 3D Representation Learning [30.942281325891226]
マルチモーダルリレーショナル蒸留(Multi-modal Relation Distillation、MRD)は、3次元バックボーンに再生可能な大型ビジョンランゲージモデル(VLM)を蒸留するために設計された3次元事前学習フレームワークである。
MRDは、各モダリティ内の関係と異なるモダリティ間の相互関係をキャプチャし、より差別的な3D形状表現を作り出すことを目的としている。
論文 参考訳(メタデータ) (2024-07-19T03:43:48Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Self-Supervised Generative-Contrastive Learning of Multi-Modal Euclidean Input for 3D Shape Latent Representations: A Dynamic Switching Approach [53.376029341079054]
本稿では,3次元形状の潜在表現を学習するための,生成型とコントラスト型を組み合わせたニューラルアーキテクチャを提案する。
このアーキテクチャでは、2つのエンコーダブランチをボクセルグリッドと、同じ形状のマルチビューイメージに使用している。
論文 参考訳(メタデータ) (2023-01-11T18:14:24Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - An Efficient End-to-End Transformer with Progressive Tri-modal Attention
for Multi-modal Emotion Recognition [27.96711773593048]
本稿では,マルチモーダル・エンド・ツー・エンド・トランス (ME2ET) を提案する。
低レベルにおいては、2パス戦略を採用することで、3モーダルな特徴相互作用をモデル化できるプログレッシブ・トリモーダル・アテンションを提案する。
高いレベルでは、3つのモーダルのセマンティック表現を明示的に集約する三モーダル特徴融合層を導入する。
論文 参考訳(メタデータ) (2022-09-20T14:51:38Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Adjacency List Oriented Relational Fact Extraction via Adaptive
Multi-task Learning [24.77542721790553]
本稿では,すべての事実抽出モデルをグラフ指向分析の観点から整理可能であることを示す。
この分析枠組みに基づいて,効率的なモデルaDjacency lIst oRientational faCT(Direct)を提案する。
論文 参考訳(メタデータ) (2021-06-03T02:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。