論文の概要: GRAMformer: Any-Order Modality Interactions via Volumetric Multimodal Cross-Attention
- arxiv url: http://arxiv.org/abs/2606.06249v1
- Date: Thu, 04 Jun 2026 14:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.874251
- Title: GRAMformer: Any-Order Modality Interactions via Volumetric Multimodal Cross-Attention
- Title(参考訳): GRAMformer: ボリュームマルチモーダル・クロスアテンションによる任意の順序モード相互作用
- Authors: Giordano Cicchetti, Eleonora Grassucci, Danilo Comminiello,
- Abstract要約: Volume Multimodal Cross-Attention (VMA)
VMAは、クエリのジョイントジオメトリと複数のモダリティ固有のキーの関数としてアテンションスコアが定義される、新しいクロスアテンションメカニズムである。
VMAは、クエリとキーベクタによって複数のモードにまたがるボリュームを計算し、ペアの類似性を超えた共同マルチモーダル依存関係をキャプチャする。
- 参考スコア(独自算出の注目度): 15.387737375519286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based multimodal models rely on attention mechanisms to integrate information across heterogeneous modalities. Despite their success, existing multimodal attention formulations compute their scores through collections of pairwise dot-product interactions or by concatenating all the modalities into the keys, even when multiple modalities should be jointly involved. As a consequence, current approaches either incur quadratic complexity in the number of modalities or fail to explicitly model interactions that depend on the joint configuration of multiple representations. In this work, we introduce the Volumetric Multimodal cross-Attention (VMA), a novel cross-attention mechanism in which attention scores are defined as a function of the joint geometry of a query and multiple modality-specific keys. VMA computes the volume spanned by query and key vectors across multiple modalities, capturing joint multimodal dependencies beyond pairwise similarity, enabling native modeling of any-order modality interactions. We integrate VMA into our novel multimodal transformer architecture, named GRAMformer, explicitly designed to integrate any number of modalities. We evaluate the proposed model on multimodal learning tasks, demonstrating improved effectiveness and efficiency.
- Abstract(参考訳): トランスフォーマーベースのマルチモーダルモデルは、異質なモーダルをまたいだ情報を統合するための注意機構に依存している。
その成功にもかかわらず、既存のマルチモーダルアテンションの定式化は、ペアのドット積相互作用の集まりや、複数のモーダルが連関されるべきである場合でも、すべてのモダリティをキーにまとめることによってスコアを計算する。
結果として、現在のアプローチは、モダリティの数において二次的な複雑さを発生させるか、あるいは複数の表現の結合構成に依存する相互作用を明示的にモデル化することができないかのいずれかである。
本稿では,クエリのジョイントジオメトリとマルチモーダル特化キーの関数として注目スコアを定義可能な,新しいクロスアテンション機構であるボリュームマルチモーダル・クロスアテンション(VMA)を紹介する。
VMAはクエリとキーベクタによって複数のモーダルにまたがるボリュームを計算し、ペアの類似性を超えたジョイントマルチモーダル依存関係をキャプチャし、任意の順序のモーダル相互作用のネイティブなモデリングを可能にする。
我々はVMAをGRAMformerという名前の新しいマルチモーダルトランスフォーマーアーキテクチャに統合し、多くのモダリティを統合するように設計されています。
提案したマルチモーダル学習課題モデルの評価を行い,改善された効率と効率性を実証した。
関連論文リスト
- Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - Graph4MM: Weaving Multimodal Learning with Structural Information [52.16646463590474]
グラフは、モーダル内およびモーダル間関係をモデル化するための強力な構造情報を提供する。
それまでの作業では、マルチホップの隣人を区別できず、グラフをスタンドアローンのモダリティとして扱う。
グラフベースのマルチモーダル学習フレームワークであるGraph4MMを提案する。
論文 参考訳(メタデータ) (2025-10-19T20:13:03Z) - A Markov Random Field Multi-Modal Variational AutoEncoder [1.2233362977312945]
この研究は、マルコフランダム場(MRF)を前と後の両方の分布に組み込む新しいマルチモーダルVAEを導入する。
我々のアプローチは、これらの関係の複雑さをモデル化し、活用することを目的としており、マルチモーダルデータのより忠実な表現を可能にしている。
論文 参考訳(メタデータ) (2024-08-18T19:27:30Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。