論文の概要: Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos
- arxiv url: http://arxiv.org/abs/2303.06378v1
- Date: Sat, 11 Mar 2023 11:00:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:18:54.951050
- Title: Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos
- Title(参考訳): untrimmed videoにおける多用途理解のための学習グラウンドドヴィジュアル言語表現
- Authors: Teng Wang, Jinrui Zhang, Feng Zheng, Wenhao Jiang, Ran Cheng, Ping Luo
- Abstract要約: 本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
- 参考スコア(独自算出の注目度): 57.830865926459914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint video-language learning has received increasing attention in recent
years. However, existing works mainly focus on single or multiple trimmed video
clips (events), which makes human-annotated event boundaries necessary during
inference. To break away from the ties, we propose a grounded vision-language
learning framework for untrimmed videos, which automatically detects
informative events and effectively excavates the alignments between
multi-sentence descriptions and corresponding event segments. Instead of
coarse-level video-language alignments, we present two dual pretext tasks to
encourage fine-grained segment-level alignments, i.e., text-to-event grounding
(TEG) and event-to-text generation (ETG). TEG learns to adaptively ground the
possible event proposals given a set of sentences by estimating the cross-modal
distance in a joint semantic space. Meanwhile, ETG aims to reconstruct
(generate) the matched texts given event proposals, encouraging the event
representation to retain meaningful semantic information. To encourage accurate
label assignment between the event set and the text set, we propose a novel
semantic-aware cost to mitigate the sub-optimal matching results caused by
ambiguous boundary annotations. Our framework is easily extensible to tasks
covering visually-grounded language understanding and generation. We achieve
state-of-the-art dense video captioning performance on ActivityNet Captions,
YouCook2 and YouMakeup, and competitive performance on several other language
generation and understanding tasks. Our method also achieved 1st place in both
the MTVG and MDVC tasks of the PIC 4th Challenge.
- Abstract(参考訳): 近年,共同ビデオ言語学習が注目されている。
しかし、既存の作品は、主にシングルまたは複数トリミングされたビデオクリップ(イベント)に焦点を当てている。
関連性から脱却するために,情報的イベントを自動的に検出し,多文記述と対応するイベントセグメントのアライメントを効果的に抽出する,アントリミングビデオのための基底的視覚言語学習フレームワークを提案する。
粗いビデオ言語アライメントの代わりに、細粒度セグメントレベルアライメント(TEG)とイベント・トゥ・テキスト生成(ETG)の2つの二重プレテキストタスクを提案する。
TEGは、共同意味空間におけるクロスモーダル距離を推定することにより、文の集合が与えられたイベントの提案を適応的に基礎づけることを学ぶ。
一方、ETGは、イベント提案のマッチしたテキストを再構成(生成)することを目的としており、イベント表現が意味のある意味情報を保持するように促している。
イベントセットとテキストセット間の正確なラベル割り当てを促進するため,曖昧な境界アノテーションによる準最適マッチングを緩和するためのセマンティック・アウェア・コストを提案する。
我々のフレームワークは、視覚的な言語理解と生成を含むタスクに容易に拡張できる。
我々は、ActivityNet Captions、YouCook2、YouMakeupで最先端の高密度ビデオキャプション性能を達成し、他の言語生成および理解タスクで競合性能を達成した。
また,本手法は,PIC 4th ChallengeのMTVGおよびMDVCタスクにおいて,第1位を獲得した。
関連論文リスト
- Boosting Weakly-Supervised Temporal Action Localization with Text
Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文 参考訳(メタデータ) (2023-05-01T00:07:09Z) - Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。
以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。
具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。
補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - HANet: Hierarchical Alignment Networks for Video-Text Retrieval [15.91922397215452]
ビデオテキスト検索は視覚言語理解において重要な課題である。
現在のほとんどの研究は、ビデオレベルの埋め込みとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を単純に測定している。
本稿では,階層型アライメントネットワーク(HANet)を提案する。
論文 参考訳(メタデータ) (2021-07-26T09:28:50Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。