論文の概要: ActBERT: Learning Global-Local Video-Text Representations
- arxiv url: http://arxiv.org/abs/2011.07231v1
- Date: Sat, 14 Nov 2020 07:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 13:37:31.951340
- Title: ActBERT: Learning Global-Local Video-Text Representations
- Title(参考訳): ActBERT: グローバルローカルビデオテキスト表現の学習
- Authors: Linchao Zhu, Yi Yang
- Abstract要約: 本稿では,未ラベルデータからの共同ビデオテキスト表現の自己教師型学習のための ActBERT を提案する。
我々はグローバルな行動情報を活用し、言語テキストと地域オブジェクト間の相互相互作用を触媒する。
ActBERTは最先端技術よりも優れており、ビデオテキスト表現学習においてその優位性を示している。
- 参考スコア(独自算出の注目度): 74.29748531654474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce ActBERT for self-supervised learning of joint
video-text representations from unlabeled data. First, we leverage global
action information to catalyze the mutual interactions between linguistic texts
and local regional objects. It uncovers global and local visual clues from
paired video sequences and text descriptions for detailed visual and text
relation modeling. Second, we introduce an ENtangled Transformer block (ENT) to
encode three sources of information, i.e., global actions, local regional
objects, and linguistic descriptions. Global-local correspondences are
discovered via judicious clues extraction from contextual information. It
enforces the joint videotext representation to be aware of fine-grained objects
as well as global human intention. We validate the generalization capability of
ActBERT on downstream video-and language tasks, i.e., text-video clip
retrieval, video captioning, video question answering, action segmentation, and
action step localization. ActBERT significantly outperforms the
state-of-the-arts, demonstrating its superiority in video-text representation
learning.
- Abstract(参考訳): 本稿では,未ラベルデータからの共同ビデオテキスト表現の自己教師型学習のための ActBERT を提案する。
まず,グローバルな行動情報を活用し,言語文と地域オブジェクト間の相互相互作用を解明する。
詳細な視覚およびテキスト関係モデリングのために、ペアビデオシーケンスとテキスト記述からグローバルおよびローカルな視覚手がかりを明らかにする。
第2に、グローバルアクション、地域オブジェクト、言語記述の3つの情報源を符号化するENtangled Transformer Block(ENT)を導入する。
グローバルローカル通信は、文脈情報から法的な手がかりを抽出することで発見される。
ジョイントビデオテキスト表現は、粒度の細かいオブジェクトだけでなく、グローバルな人間の意図も認識するように強制する。
本稿では,字幕検索,ビデオキャプション,ビデオ質問応答,アクションセグメンテーション,アクションステップのローカライゼーションなど,下流ビデオおよび言語タスクにおける ActBERT の一般化能力を検証する。
ActBERTは最先端技術よりも優れており、ビデオテキスト表現学習においてその優位性を示している。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Bridging Local Details and Global Context in Text-Attributed Graphs [62.522550655068336]
GraphBridgeは、コンテキストテキスト情報を活用することで、ローカルおよびグローバルな視点をブリッジするフレームワークである。
提案手法は最先端性能を実現し,グラフ対応トークン削減モジュールは効率を大幅に向上し,スケーラビリティの問題を解消する。
論文 参考訳(メタデータ) (2024-06-18T13:35:25Z) - Video Summarization: Towards Entity-Aware Captions [73.28063602552741]
本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。
提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
論文 参考訳(メタデータ) (2023-12-01T23:56:00Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - GL-RG: Global-Local Representation Granularity for Video Captioning [52.56883051799501]
ビデオキャプションのためのGL-RGフレームワーク,すなわちtextbfGlobal-textbfLocal textbfRepresentation textbfGranularityを提案する。
GL-RGは従来の取り組みに対して3つの利点を挙げている: 1) 異なるビデオ範囲から広範囲の視覚表現を明示的に活用して言語表現を改善する; 2) フレーム間の映像コンテンツの記述的粒度を得るために、リッチなセマンティック語彙を生成する新しいグローバルローカルエンコーダを考案する; 3) モデル学習をインクリメンタルに組織し、最適なキャプションを創出するインクリメンタルトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2022-05-22T02:00:09Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - DVCFlow: Modeling Information Flow Towards Human-like Video Captioning [163.71539565491113]
既存の手法は主に個々のビデオセグメントからキャプションを生成するが、グローバルな視覚的コンテキストへの適応が欠如している。
映像のシーケンスやキャプションによって変化するプログレッシブな情報をモデル化するために,情報フローの概念を導入する。
提案手法は, 競争基準を著しく上回り, 主観的, 客観的なテストにより, より人間的なテキストを生成する。
論文 参考訳(メタデータ) (2021-11-19T10:46:45Z) - HANet: Hierarchical Alignment Networks for Video-Text Retrieval [15.91922397215452]
ビデオテキスト検索は視覚言語理解において重要な課題である。
現在のほとんどの研究は、ビデオレベルの埋め込みとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を単純に測定している。
本稿では,階層型アライメントネットワーク(HANet)を提案する。
論文 参考訳(メタデータ) (2021-07-26T09:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。