論文の概要: Video-Text as Game Players: Hierarchical Banzhaf Interaction for
Cross-Modal Representation Learning
- arxiv url: http://arxiv.org/abs/2303.14369v1
- Date: Sat, 25 Mar 2023 05:47:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 20:09:13.788131
- Title: Video-Text as Game Players: Hierarchical Banzhaf Interaction for
Cross-Modal Representation Learning
- Title(参考訳): ゲームプレイヤとしてのビデオテキスト: クロスモーダル表現学習のための階層的バンジャフインタラクション
- Authors: Peng Jin, Jinfa Huang, Pengfei Xiong, Shangxuan Tian, Chang Liu,
Xiangyang Ji, Li Yuan, Jie Chen
- Abstract要約: 我々は多変量協調ゲーム理論を持つゲームプレイヤーとしてビデオテキストを創造的にモデル化する。
ビデオフレームとテキストワードの対応性を評価するために,階層型バンジャフインタラクション(HBI)を提案する。
トークンモジュールを積み重ねることで、異なる意味レベルで協調的なゲームを実現する。
- 参考スコア(独自算出の注目度): 41.1802201408379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning-based video-language representation learning approaches,
e.g., CLIP, have achieved outstanding performance, which pursue semantic
interaction upon pre-defined video-text pairs. To clarify this coarse-grained
global interaction and move a step further, we have to encounter challenging
shell-breaking interactions for fine-grained cross-modal learning. In this
paper, we creatively model video-text as game players with multivariate
cooperative game theory to wisely handle the uncertainty during fine-grained
semantic interaction with diverse granularity, flexible combination, and vague
intensity. Concretely, we propose Hierarchical Banzhaf Interaction (HBI) to
value possible correspondence between video frames and text words for sensitive
and explainable cross-modal contrast. To efficiently realize the cooperative
game of multiple video frames and multiple text words, the proposed method
clusters the original video frames (text words) and computes the Banzhaf
Interaction between the merged tokens. By stacking token merge modules, we
achieve cooperative games at different semantic levels. Extensive experiments
on commonly used text-video retrieval and video-question answering benchmarks
with superior performances justify the efficacy of our HBI. More encouragingly,
it can also serve as a visualization tool to promote the understanding of
cross-modal interaction, which have a far-reaching impact on the community.
Project page is available at https://jpthu17.github.io/HBI/.
- Abstract(参考訳): コントラスト学習に基づくビデオ言語表現学習アプローチ、例えばクリップは、事前定義されたビデオテキストペアで意味的相互作用を追求する優れた性能を達成している。
この粗粒なグローバルな相互作用を明確にし、さらに一歩前進するためには、細粒なクロスモーダル学習のための挑戦的なシェル破りの相互作用に直面する必要がある。
本稿では,多変量協調型ゲーム理論を持つゲームプレイヤーとして映像テキストを創造的にモデル化し,多様な粒度,柔軟な組み合わせ,曖昧な強度との微粒なセマンティック相互作用における不確実性に対処する。
具体的には,階層的バンジャフ相互作用 (HBI) を用いて,ビデオフレームとテキストワードの対応性を評価する。
複数のビデオフレームと複数のテキストワードの協調ゲームを実現するために,提案手法は元のビデオフレーム(テキストワード)をクラスタリングし,マージされたトークン間のバンジャフ相互作用を計算する。
トークンマージモジュールを積み重ねることで,異なる意味レベルで協調ゲームを実現する。
高い性能のテキストビデオ検索とビデオ検索応答ベンチマークの大規模な実験は、我々のHBIの有効性を正当化する。
より奨励的に、それはまた、コミュニティに大きく影響するクロスモーダル相互作用の理解を促進するための可視化ツールとしても機能する。
プロジェクトページはhttps://jpthu17.github.io/hbi/。
関連論文リスト
- NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - REACT: Recognize Every Action Everywhere All At Once [8.10024991952397]
グループ・アクティビティ・デコーダ(GAR)はコンピュータビジョンにおける基本的な問題であり、スポーツ分析、監視、社会場面の理解に様々な応用がある。
本稿では,変換器エンコーダ・デコーダモデルにインスパイアされたREACTアーキテクチャを提案する。
提案手法は,グループ活動の認識と理解において優れた精度を示すとともに,最先端のGAR手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-27T20:48:54Z) - HunYuan_tvr for Text-Video Retrivial [23.650824732136158]
HunYuan_tvrはビデオ文、クリップフレーズ、フレームワード関係を同時に探索することで階層的相互モーダル相互作用を探索する。
HunYuan_tvr は、それぞれ MSR-VTT, MSVD, LSMDC, DiDemo, ActivityNet の Rank@1 of 55.0%, 57.8%, 29.7%, 52.1%, 57.3% といった様々なベンチマークで、新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-07T11:59:36Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - COOT: Cooperative Hierarchical Transformer for Video-Text Representation
Learning [0.0]
多くの実世界のビデオテキストタスクは、フレームや単語、クリップや文、ビデオや段落など、それぞれ異なる意味を持つ粒度のレベルを含む。
本稿では,この階層情報を活用するための協調階層変換器(COOT)を提案し,異なるレベルの粒度と異なるモダリティ間の相互作用をモデル化する。
論文 参考訳(メタデータ) (2020-11-01T18:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。