論文の概要: Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities
Using Web Instructional Videos
- arxiv url: http://arxiv.org/abs/2311.16444v2
- Date: Wed, 29 Nov 2023 06:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 12:17:49.622340
- Title: Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities
Using Web Instructional Videos
- Title(参考訳): Exo2EgoDVC:Webインストラクショナルビデオを用いたエゴセントリックな手続き活動の高精細ビデオキャプション
- Authors: Takehiko Ohkawa, Takuma Yagi, Taichi Nishimura, Ryosuke Furuta,
Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato
- Abstract要約: 本稿では,高密度ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。
我々は、エゴセントリックな視点で見るWebインストラクショナルビデオのモデルを、エゴセントリックな視点に適応させる。
- 参考スコア(独自算出の注目度): 27.209391862016574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel benchmark for cross-view knowledge transfer of dense video
captioning, adapting models from web instructional videos with exocentric views
to an egocentric view. While dense video captioning (predicting time segments
and their captions) is primarily studied with exocentric videos (e.g.,
YouCook2), benchmarks with egocentric videos are restricted due to data
scarcity. To overcome the limited video availability, transferring knowledge
from abundant exocentric web videos is demanded as a practical approach.
However, learning the correspondence between exocentric and egocentric views is
difficult due to their dynamic view changes. The web videos contain mixed views
focusing on either human body actions or close-up hand-object interactions,
while the egocentric view is constantly shifting as the camera wearer moves.
This necessitates the in-depth study of cross-view transfer under complex view
changes. In this work, we first create a real-life egocentric dataset (EgoYC2)
whose captions are shared with YouCook2, enabling transfer learning between
these datasets assuming their ground-truth is accessible. To bridge the view
gaps, we propose a view-invariant learning method using adversarial training in
both the pre-training and fine-tuning stages. While the pre-training is
designed to learn invariant features against the mixed views in the web videos,
the view-invariant fine-tuning further mitigates the view gaps between both
datasets. We validate our proposed method by studying how effectively it
overcomes the view change problem and efficiently transfers the knowledge to
the egocentric domain. Our benchmark pushes the study of the cross-view
transfer into a new task domain of dense video captioning and will envision
methodologies to describe egocentric videos in natural language.
- Abstract(参考訳): 本稿では,webインストラクションビデオからのモデルをエゴセントリックな視点に適応させ,高精細ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。
濃密なビデオキャプション(予測時間セグメントとそのキャプション)は、主にエキソセントリックなビデオ(例えばyoucook2)で研究されているが、エゴセントリックなビデオによるベンチマークはデータの不足のために制限されている。
制限されたビデオの可用性を克服するために、豊富なエキソセントリックなウェブビデオからの知識の転送は実用的なアプローチとして要求される。
しかし,外心的視点と自我的視点の対応の学習は,動的視点の変化のため困難である。
ウェブビデオには、人間の身体の動きやクローズアップなハンドオブジェクトのインタラクションに焦点を当てた、さまざまなビューが含まれています。
これは複雑なビュー変更の下でのクロスビュー転送の詳細な研究を必要とする。
本研究では,まず,実生活におけるエゴセントリックなデータセット(EgoYC2)を作成し,そのキャプションがYouCook2と共有されている。
そこで本研究では,前訓練段階と微調整段階の両方において,逆訓練を用いた視点不変学習法を提案する。
事前トレーニングは、webビデオの混合ビューに対して不変機能を学ぶように設計されているが、ビュー不変の微調整は、両方のデータセット間のビューギャップをさらに緩和する。
提案手法は,視点変化問題をいかに効果的に克服し,知識をエゴセントリックな領域に効率的に移すことで検証する。
本ベンチマークでは,映像キャプションのタスク領域にクロスビュー変換の研究をプッシュし,自然言語による自己中心的映像記述の方法論を考察する。
関連論文リスト
- EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object
Interaction in the Multi-View World [59.545114016224254]
人間は、手と物体の相互作用の第三者による観察をエゴセントリックな視点に変換するのに長けている。
本稿では,自我中心の動画をほとんど持たない視点適応を実現するための,Prompt-Oriented View-Agnostic Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:54:44Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective [13.776455033015216]
本稿では,アクション認識のための新しいクロスビュー学習手法を提案する。
まず,トランスフォーマーの自己注意機構に幾何学的制約を新たに導入する。
そこで本稿では, 自己意識のメカニズムを学習し, 知識を視点間で伝達するために, 自己意識を学習するために, 未確認のクロスビューデータに基づいて学習した, 新たな自己意識の喪失を提案する。
論文 参考訳(メタデータ) (2023-05-25T04:14:49Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。