論文の概要: A Multi-level Alignment Training Scheme for Video-and-Language Grounding
- arxiv url: http://arxiv.org/abs/2204.10938v2
- Date: Tue, 26 Apr 2022 01:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-27 10:26:11.243700
- Title: A Multi-level Alignment Training Scheme for Video-and-Language Grounding
- Title(参考訳): 映像・言語接地のための多レベルアライメント訓練手法
- Authors: Yubo Zhang, Feiyang Niu, Qing Ping, Govind Thattai
- Abstract要約: 優れたマルチモーダルエンコーダは、入力のセマンティクスを適切にキャプチャし、それらを共有機能空間にエンコードできるべきです。
符号化プロセスを直接整形する多段階アライメントトレーニング手法を開発した。
筆者らのフレームワークは,複数のビデオQAおよび検索データセット上で,過去の最先端技術に匹敵する性能を達成している。
- 参考スコア(独自算出の注目度): 9.866172676211905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To solve video-and-language grounding tasks, the key is for the network to
understand the connection between the two modalities. For a pair of video and
language description, their semantic relation is reflected by their encodings'
similarity. A good multi-modality encoder should be able to well capture both
inputs' semantics and encode them in the shared feature space where embedding
distance gets properly translated into their semantic similarity. In this work,
we focused on this semantic connection between video and language, and
developed a multi-level alignment training scheme to directly shape the
encoding process. Global and segment levels of video-language alignment pairs
were designed, based on the information similarity ranging from high-level
context to fine-grained semantics. The contrastive loss was used to contrast
the encodings' similarities between the positive and negative alignment pairs,
and to ensure the network is trained in such a way that similar information is
encoded closely in the shared feature space while information of different
semantics is kept apart. Our multi-level alignment training can be applied to
various video-and-language grounding tasks. Together with the task-specific
training loss, our framework achieved comparable performance to previous
state-of-the-arts on multiple video QA and retrieval datasets.
- Abstract(参考訳): ビデオと言語の接地課題を解決するために、ネットワークが2つのモード間の接続を理解することが鍵となる。
一対のビデオと言語の記述では、それらの意味関係はエンコーディングの類似性によって反映される。
優れたマルチモダリティエンコーダは、入力の両方のセマンティクスをうまく捉えて、埋め込み距離がそれらのセマンティクスの類似性に適切に変換される共有機能空間にエンコードできるべきです。
本研究では,ビデオと言語間のセマンティックな関係に着目し,符号化プロセスを直接形作る多段階アライメントトレーニング手法を開発した。
ビデオ言語アライメントペアのグローバルレベルとセグメントレベルは、高レベルコンテキストから細粒度セマンティクスまでの情報類似性に基づいて設計された。
対照的な損失は、正のアライメント対と負のアライメント対のエンコーディングの類似性を対比し、異なるセマンティクスの情報を保持しながら、類似情報が共有特徴空間に密にエンコードされるようにネットワークを訓練するために用いられた。
マルチレベルアライメントトレーニングは,様々なビデオ・言語グラウンドタスクに適用できる。
タスク固有のトレーニング損失とともに、我々のフレームワークは、複数のビデオQAおよび検索データセットにおける過去の最先端技術と同等のパフォーマンスを達成した。
関連論文リスト
- OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Locality-Aware Inter-and Intra-Video Reconstruction for Self-Supervised
Correspondence Learning [74.03651142051656]
局所性を考慮した映像間再構成フレームワークLIIRを開発した。
クロスビデオ親和性は、統合されたビデオ間およびビデオ内再構成方式において、追加の負のサンプルとして活用する。
論文 参考訳(メタデータ) (2022-03-27T15:46:42Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。