論文の概要: COOT: Cooperative Hierarchical Transformer for Video-Text Representation
Learning
- arxiv url: http://arxiv.org/abs/2011.00597v1
- Date: Sun, 1 Nov 2020 18:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 22:46:26.879668
- Title: COOT: Cooperative Hierarchical Transformer for Video-Text Representation
Learning
- Title(参考訳): COOT:ビデオテキスト表現学習のための協調階層変換器
- Authors: Simon Ging (1), Mohammadreza Zolfaghari (1), Hamed Pirsiavash (2),
Thomas Brox (1) ((1) University of Freiburg, (2) University of Maryland
Baltimore County)
- Abstract要約: 多くの実世界のビデオテキストタスクは、フレームや単語、クリップや文、ビデオや段落など、それぞれ異なる意味を持つ粒度のレベルを含む。
本稿では,この階層情報を活用するための協調階層変換器(COOT)を提案し,異なるレベルの粒度と異なるモダリティ間の相互作用をモデル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many real-world video-text tasks involve different levels of granularity,
such as frames and words, clip and sentences or videos and paragraphs, each
with distinct semantics. In this paper, we propose a Cooperative hierarchical
Transformer (COOT) to leverage this hierarchy information and model the
interactions between different levels of granularity and different modalities.
The method consists of three major components: an attention-aware feature
aggregation layer, which leverages the local temporal context (intra-level,
e.g., within a clip), a contextual transformer to learn the interactions
between low-level and high-level semantics (inter-level, e.g. clip-video,
sentence-paragraph), and a cross-modal cycle-consistency loss to connect video
and text. The resulting method compares favorably to the state of the art on
several benchmarks while having few parameters. All code is available
open-source at https://github.com/gingsi/coot-videotext
- Abstract(参考訳): 多くの実世界のビデオテキストタスクは、フレームや単語、クリップや文、ビデオや段落など、それぞれ異なる意味を持つ粒度のレベルを含む。
本稿では,この階層的情報を活用し,異なる粒度と異なるモダリティの相互作用をモデル化する協調階層型トランスフォーマ(coot)を提案する。
この手法は3つの主要な構成要素から構成される: 注意を意識した特徴集約層は、局所的時間的文脈(例えばクリップ内のイントラレベル)、低レベルの意味論と高レベルの意味論(例えばクリップビデオ、文パラグラフ)の相互作用を学習するための文脈変換器、ビデオとテキストを接続するためのクロスモーダルサイクル一貫性損失である。
結果として得られた手法は、パラメータをほとんど持たずに、いくつかのベンチマークでアートの状態を好ましく比較する。
すべてのコードはhttps://github.com/gingsi/coot-videotextで公開されている。
関連論文リスト
- GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - HANet: Hierarchical Alignment Networks for Video-Text Retrieval [15.91922397215452]
ビデオテキスト検索は視覚言語理解において重要な課題である。
現在のほとんどの研究は、ビデオレベルの埋め込みとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を単純に測定している。
本稿では,階層型アライメントネットワーク(HANet)を提案する。
論文 参考訳(メタデータ) (2021-07-26T09:28:50Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。