論文の概要: CLARGA: Multimodal Graph Representation Learning over Arbitrary Sets of Modalities
- arxiv url: http://arxiv.org/abs/2512.11901v1
- Date: Wed, 10 Dec 2025 14:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.009982
- Title: CLARGA: Multimodal Graph Representation Learning over Arbitrary Sets of Modalities
- Title(参考訳): CLARGA: モーダリティの任意集合を用いたマルチモーダルグラフ表現学習
- Authors: Santosh Patapati,
- Abstract要約: 本稿では,表現学習のための汎用多目的融合アーキテクチャであるCLARGAを紹介する。
教師付きデータセットが与えられた場合、CLARGAは事実上あらゆる機械学習タスクに適用できる。
CLARGAが7つのデータセットにまたがる多様なマルチモーダル表現学習タスクにおいて有効であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CLARGA, a general-purpose multimodal fusion architecture for multimodal representation learning that works with any number and type of modalities without changing the underlying framework. Given a supervised dataset, CLARGA can be applied to virtually any machine learning task to fuse different multimodal representations for processing by downstream layers. On a sample-by-sample basis, CLARGA learns how modalities should inform one another by building an attention weighted graph over their features and passing messages along this graph with a multi-head Graph Attention Network. Not only does this make CLARGA highly adaptive, as it constructs unique graphs for different samples, it makes for efficient fusion with sub-quadratic complexity as the number of modalities grows. Through a learnable mask, it can also adapt to missing modality inputs. The model is trained with a hybrid objective that combines a supervised task loss with contrastive InfoNCE loss, improving cross-modal consistency and robustness to noisy inputs. We demonstrate CLARGA's effectiveness in diverse multimodal representation learning tasks across 7 datasets spanning finance, human-computer interaction, general multimedia classification, and affective computing. It consistently outperforms baselines, state-of-the-art models, and ablations. Additional experiments also demonstrate its robustness to missing inputs and ability to excel on niche tasks. Overall, CLARGA can be easily plugged into machine learning models for effective and efficient learning of representations across a wide variety of tasks.
- Abstract(参考訳): CLARGAは,マルチモーダル表現学習のための汎用的マルチモーダル融合アーキテクチャであり,基礎となるフレームワークを変更することなく,任意の数や種類のモダリティで動作する。
教師付きデータセットが与えられた場合、CLARGAは事実上どんな機械学習タスクにも適用でき、下流層による処理のために異なるマルチモーダル表現を融合することができる。
CLARGAはサンプル・バイ・サンプルベースで、特徴に重み付けされたグラフを構築し、マルチヘッドグラフアテンション・ネットワークでこのグラフに沿ってメッセージを渡すことで、モダリティが相互にどのように通知するかを学習する。
これはCLARGAを高度に適応させるだけでなく、異なるサンプルに対するユニークなグラフを構成するため、モダリティの数が増えるにつれて、準四分法的な複雑さと効率的に融合する。
学習可能なマスクを通じて、欠落したモダリティ入力に適応することもできる。
このモデルは、教師付きタスクの損失と対照的なInfoNCEの損失を組み合わせ、モーダル間の一貫性を改善し、ノイズの多い入力に対して堅牢性を向上させるハイブリッドな目的で訓練される。
CLARGAは、財務、人間とコンピュータの相互作用、一般的なマルチメディア分類、感情コンピューティングにまたがる7つのデータセットにまたがる多様なマルチモーダル表現学習タスクにおいて有効であることを示す。
ベースライン、最先端のモデル、アブレーションを一貫して上回る。
追加の実験では、欠落した入力に対する堅牢性や、ニッチなタスクに精通する能力も示されている。
全体として、CLARGAは機械学習モデルに簡単にプラグインでき、幅広いタスクにまたがる表現の効率的かつ効率的な学習が可能になる。
関連論文リスト
- SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - All in One and One for All: A Simple yet Effective Method towards Cross-domain Graph Pretraining [18.955565096212183]
大規模言語モデル (LLM) はコンピュータビジョン (CV) と自然言語処理 (NLP) の分野に革命をもたらした。
LLMの最も注目すべき進歩の1つは、単一のモデルが複数のドメインにまたがる広範囲で多様なデータセットでトレーニングされていることである。
論文 参考訳(メタデータ) (2024-02-15T09:55:39Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Multimodal Graph Transformer for Multimodal Question Answering [9.292566397511763]
本稿では,複数のモーダルをまたがる推論を必要とする質問応答タスクのための新しいマルチモーダルグラフ変換器を提案する。
マルチモーダルグラフ情報を組み込むための,グラフを包含したプラグアンドプレイ準アテンション機構を提案する。
GQA, VQAv2, MultiModalQAデータセット上のトランスフォーマーベースラインに対するマルチモーダルグラフ変換の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-30T21:22:35Z) - A System for Morphology-Task Generalization via Unified Representation
and Behavior Distillation [28.041319351752485]
本研究では,多量の熟練した行動データを蒸留することにより,様々な形態のエージェントを操り,様々なタスクをこなす単一ポリシーを学習する方法について検討する。
本稿では, 観測, 行動, 目標/タスクを統一されたグラフ表現で扱うモルフォロジー・タスクグラフを紹介する。
また,多種多様な形態とタスクの組み合わせの手続き的生成を支援する高速な大規模行動生成のためのMxT-Benchを開発した。
論文 参考訳(メタデータ) (2022-11-25T18:52:48Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。