論文の概要: HierVL: Learning Hierarchical Video-Language Embeddings
- arxiv url: http://arxiv.org/abs/2301.02311v2
- Date: Thu, 8 Jun 2023 14:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 20:02:10.689201
- Title: HierVL: Learning Hierarchical Video-Language Embeddings
- Title(参考訳): hiervl: 階層型ビデオ言語埋め込みの学習
- Authors: Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman
- Abstract要約: HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
- 参考スコア(独自算出の注目度): 108.77600799637172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-language embeddings are a promising avenue for injecting semantics into
visual representations, but existing methods capture only short-term
associations between seconds-long video clips and their accompanying text. We
propose HierVL, a novel hierarchical video-language embedding that
simultaneously accounts for both long-term and short-term associations. As
training data, we take videos accompanied by timestamped text descriptions of
human actions, together with a high-level text summary of the activity
throughout the long video (as are available in Ego4D). We introduce a
hierarchical contrastive training objective that encourages text-visual
alignment at both the clip level and video level. While the clip-level
constraints use the step-by-step descriptions to capture what is happening in
that instant, the video-level constraints use the summary text to capture why
it is happening, i.e., the broader context for the activity and the intent of
the actor. Our hierarchical scheme yields a clip representation that
outperforms its single-level counterpart as well as a long-term video
representation that achieves SotA results on tasks requiring long-term video
modeling. HierVL successfully transfers to multiple challenging downstream
tasks (in EPIC-KITCHENS-100, Charades-Ego, HowTo100M) in both zero-shot and
fine-tuned settings.
- Abstract(参考訳): ビデオ言語埋め込みは、セマンティックスを視覚表現に注入するための有望な方法であるが、既存の手法は、数秒のビデオクリップと付随するテキストの間の短期的関連のみをキャプチャする。
長期・短期の関連を同時に考慮した階層型ビデオ言語埋め込みであるHierVLを提案する。
トレーニングデータとして、人間の行動のタイムスタンプ付きテキスト記述を伴うビデオと、長いビデオを通してのアクティビティの高レベルテキスト要約(Ego4Dで利用可能)を取ります。
本稿では,クリップレベルと映像レベルでのテキスト・ビジュアルアライメントを促進する階層的コントラスト学習目標を提案する。
クリップレベルの制約は、ステップバイステップの説明を使ってその瞬間に起きていることをキャプチャしますが、ビデオレベルの制約は、サマリテキストを使用して、それが起きている理由、すなわち、アクタのアクティビティとインテントに関する広いコンテキストをキャプチャします。
当社の階層構造は,単一レベルの映像表現よりも優れるクリップ表現と,長期ビデオモデリングを必要とするタスクのsoma結果を実現する長期映像表現を実現した。
HierVLは、ゼロショットと微調整の両方で複数の挑戦的な下流タスク(EPIC-KITCHENS-100、Charades-Ego、HowTo100M)への転送に成功した。
関連論文リスト
- LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - VidLA: Video-Language Alignment at Scale [48.665918882615195]
大規模なビデオ言語アライメントのためのアプローチであるVidLAを提案する。
提案手法は,複数の検索ベンチマークにおける最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-03-21T22:36:24Z) - Video ReCap: Recursive Captioning of Hour-Long Videos [42.878517455453824]
Video ReCapは、1秒から2時間までの動画入力を劇的に異なる長さで処理し、複数の階層レベルで動画キャプションを出力することができる。
ビデオの階層構造を,クリップレベルのキャプションからセグメントレベルの記述に至るまで,カリキュラム学習方式を用いて学習する。
我々のモデルは、様々な階層レベルのキャプションを柔軟に生成できると同時に、他の複雑なビデオ理解タスクにも有用である。
論文 参考訳(メタデータ) (2024-02-20T18:58:54Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - TempCLR: Temporal Alignment Representation with Contrastive Learning [35.12182087403215]
本稿では,全ビデオと段落を明示的に比較するために,対照的な学習フレームワークであるTempCLRを提案する。
ビデオと段落の事前学習に加えて,ビデオインスタンス間のマッチングも一般化できる。
論文 参考訳(メタデータ) (2022-12-28T08:10:31Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。