論文の概要: Hierarchical Banzhaf Interaction for General Video-Language Representation Learning
- arxiv url: http://arxiv.org/abs/2412.20964v1
- Date: Mon, 30 Dec 2024 14:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:05:59.836401
- Title: Hierarchical Banzhaf Interaction for General Video-Language Representation Learning
- Title(参考訳): 一般的なビデオ言語表現学習のための階層的バンジャフ相互作用
- Authors: Peng Jin, Hao Li, Li Yuan, Shuicheng Yan, Jie Chen,
- Abstract要約: マルチモーダル表現学習は人工知能領域において重要な役割を担っている。
本稿では,多変量協調ゲーム理論を用いて,ビデオテキストをゲームプレイヤーとしてモデル化する手法を提案する。
元の構造をフレキシブルなエンコーダ・デコーダ・フレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
- 参考スコア(独自算出の注目度): 60.44337740854767
- License:
- Abstract: Multimodal representation learning, with contrastive learning, plays an important role in the artificial intelligence domain. As an important subfield, video-language representation learning focuses on learning representations using global semantic interactions between pre-defined video-text pairs. However, to enhance and refine such coarse-grained global interactions, more detailed interactions are necessary for fine-grained multimodal learning. In this study, we introduce a new approach that models video-text as game players using multivariate cooperative game theory to handle uncertainty during fine-grained semantic interactions with diverse granularity, flexible combination, and vague intensity. Specifically, we design the Hierarchical Banzhaf Interaction to simulate the fine-grained correspondence between video clips and textual words from hierarchical perspectives. Furthermore, to mitigate the bias in calculations within Banzhaf Interaction, we propose reconstructing the representation through a fusion of single-modal and cross-modal components. This reconstructed representation ensures fine granularity comparable to that of the single-modal representation, while also preserving the adaptive encoding characteristics of cross-modal representation. Additionally, we extend our original structure into a flexible encoder-decoder framework, enabling the model to adapt to various downstream tasks. Extensive experiments on commonly used text-video retrieval, video-question answering, and video captioning benchmarks, with superior performance, validate the effectiveness and generalization of our method.
- Abstract(参考訳): マルチモーダル表現学習は、対照的な学習とともに、人工知能領域において重要な役割を担っている。
重要なサブフィールドとして、ビデオ言語表現学習は、事前に定義されたビデオテキストペア間の大域的意味的相互作用を用いて、表現を学習することに焦点を当てる。
しかし、このような粗粒なグローバル相互作用の強化と洗練には、より詳細な相互作用がより詳細なマルチモーダル学習のために必要である。
本研究では,多変量協調ゲーム理論を用いて,多様な粒度,フレキシブルな組み合わせ,曖昧な強度による微粒なセマンティック相互作用における不確実性を扱うために,ビデオテキストをゲームプレイヤとしてモデル化する手法を提案する。
具体的には、階層的バンジャフ相互作用を設計し、階層的視点からビデオクリップとテキスト語との微粒な対応をシミュレートする。
さらに,バンジャフ相互作用における計算のバイアスを軽減するために,単一モーダル成分とクロスモーダル成分の融合による表現の再構築を提案する。
この再構成された表現は、シングルモーダル表現に匹敵する粒度を保証し、また、クロスモーダル表現の適応符号化特性を保存する。
さらに、元の構造をフレキシブルエンコーダ・デコーダフレームワークに拡張し、モデルが様々な下流タスクに適応できるようにする。
テキスト検索, ビデオ検索, ビデオキャプション応答, およびビデオキャプションベンチマークにおいて, 優れた性能を示し, 提案手法の有効性と一般化を検証した。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - REACT: Recognize Every Action Everywhere All At Once [8.10024991952397]
グループ・アクティビティ・デコーダ(GAR)はコンピュータビジョンにおける基本的な問題であり、スポーツ分析、監視、社会場面の理解に様々な応用がある。
本稿では,変換器エンコーダ・デコーダモデルにインスパイアされたREACTアーキテクチャを提案する。
提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T20:48:54Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Video-Text as Game Players: Hierarchical Banzhaf Interaction for
Cross-Modal Representation Learning [41.1802201408379]
我々は多変量協調ゲーム理論を持つゲームプレイヤーとしてビデオテキストを創造的にモデル化する。
ビデオフレームとテキストワードの対応性を評価するために,階層型バンジャフインタラクション(HBI)を提案する。
トークンモジュールを積み重ねることで、異なる意味レベルで協調的なゲームを実現する。
論文 参考訳(メタデータ) (2023-03-25T05:47:52Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。