論文の概要: TI-JEPA: An Innovative Energy-based Joint Embedding Strategy for Text-Image Multimodal Systems
- arxiv url: http://arxiv.org/abs/2503.06380v1
- Date: Sun, 09 Mar 2025 01:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:18.315231
- Title: TI-JEPA: An Innovative Energy-based Joint Embedding Strategy for Text-Image Multimodal Systems
- Title(参考訳): TI-JEPA:テキスト画像マルチモーダルシステムのための革新的エネルギーベース共同埋め込み戦略
- Authors: Khang H. N. Vo, Duc P. T. Nguyen, Thong Nguyen, Tho T. Quan,
- Abstract要約: 本稿では,人工知能の領域におけるマルチモーダルアライメント,特にテキストと画像のモダリティに焦点を当てる。
我々は,エネルギーベースモデル(EBM)フレームワークを活用し,複雑な相互関係を捉える革新的な事前学習戦略であるTI-JEPA(Text-Image Joint Embedding Predictive Architecture)を紹介する。
- 参考スコア(独自算出の注目度): 5.941744252133915
- License:
- Abstract: This paper focuses on multimodal alignment within the realm of Artificial Intelligence, particularly in text and image modalities. The semantic gap between the textual and visual modality poses a discrepancy problem towards the effectiveness of multi-modalities fusion. Therefore, we introduce Text-Image Joint Embedding Predictive Architecture (TI-JEPA), an innovative pre-training strategy that leverages energy-based model (EBM) framework to capture complex cross-modal relationships. TI-JEPA combines the flexibility of EBM in self-supervised learning to facilitate the compatibility between textual and visual elements. Through extensive experiments across multiple benchmarks, we demonstrate that TI-JEPA achieves state-of-the-art performance on multimodal sentiment analysis task (and potentially on a wide range of multimodal-based tasks, such as Visual Question Answering), outperforming existing pre-training methodologies. Our findings highlight the potential of using energy-based framework in advancing multimodal fusion and suggest significant improvements for downstream applications.
- Abstract(参考訳): 本稿では,人工知能の領域におけるマルチモーダルアライメント,特にテキストと画像のモダリティに焦点を当てる。
テキストと視覚的モダリティのセマンティックなギャップは、マルチモダリティ融合の有効性に相違をもたらす。
そこで我々は,エネルギーベースモデル(EBM)フレームワークを活用し,複雑な相互関係を捉える革新的な事前学習戦略である,TI-JEPA(Text-Image Joint Embedding Predictive Architecture)を導入する。
TI-JEPAは、自己教師付き学習におけるEMMの柔軟性を組み合わせて、テキスト要素と視覚要素の互換性を促進する。
マルチモーダルな感情分析タスク(および視覚的質問応答などの多モーダルなタスク)において、TI-JEPAが最先端のパフォーマンスを達成し、既存の事前学習手法よりも優れていることを示す。
本研究は, マルチモーダル核融合の進展におけるエネルギーベースフレームワークの利用の可能性を明らかにするとともに, 下流アプリケーションの大幅な改善を示唆するものである。
関連論文リスト
- Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Enhancing Multimodal Emotion Recognition through Multi-Granularity Cross-Modal Alignment [10.278127492434297]
本稿では、分散ベース、インスタンスベース、トークンベースのアライメントモジュールを含む包括的アプローチにより、MGCMA(Multi-Granularity Cross-Modal Alignment)フレームワークを紹介する。
IEMOCAPに関する実験により,提案手法が現状技術より優れていることを示す。
論文 参考訳(メタデータ) (2024-12-30T09:30:41Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。
本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文 参考訳(メタデータ) (2024-10-29T01:35:17Z) - Shapley Value-based Contrastive Alignment for Multimodal Information Extraction [17.04865437165252]
我々は、画像-コンテキスト-テキストインタラクションの新しいパラダイムを導入する。
本稿では,新しいシェープ値に基づくコントラストアライメント(Shap-CA)法を提案する。
我々の手法は既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-25T08:15:43Z) - POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models [28.072184039405784]
大規模言語モデル(LLM)の効率的なプロンプトエンジニアリングを容易にするビジュアル分析システムであるPOEMを提案する。
本システムは,様々なプロンプトによって引き起こされるマルチモーダル知識を包括的に理解するために,モジュール間の相互作用パターンを様々な詳細レベルで探索することを可能にする。
論文 参考訳(メタデータ) (2024-06-06T08:21:30Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Interpretation on Multi-modal Visual Fusion [10.045591415286516]
マルチモーダル・ビジョン・コミュニティの解釈に光を当てるための分析的枠組みと新しい指標を提案する。
モダリティ間の表現の一貫性と特殊性、各モダリティ内の進化規則、マルチモダリティモデルの最適化に使用される協調論理について検討する。
論文 参考訳(メタデータ) (2023-08-19T14:01:04Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。