論文の概要: Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos
- arxiv url: http://arxiv.org/abs/2311.16444v4
- Date: Mon, 09 Dec 2024 05:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:51:10.478778
- Title: Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos
- Title(参考訳): Exo2EgoDVC:Webインストラクショナルビデオを用いたエゴセントリックな手続き活動の高精細ビデオキャプション
- Authors: Takehiko Ohkawa, Takuma Yagi, Taichi Nishimura, Ryosuke Furuta, Atsushi Hashimoto, Yoshitaka Ushiku, Yoichi Sato,
- Abstract要約: 本稿では,高密度ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。
我々は、エゴセントリックな視点で見るWebインストラクショナルビデオのモデルを、エゴセントリックな視点に適応させる。
本実験は,視点変化問題と自己中心的な視点への知識伝達を克服する効果を検証した。
- 参考スコア(独自算出の注目度): 25.910110689486952
- License:
- Abstract: We propose a novel benchmark for cross-view knowledge transfer of dense video captioning, adapting models from web instructional videos with exocentric views to an egocentric view. While dense video captioning (predicting time segments and their captions) is primarily studied with exocentric videos (e.g., YouCook2), benchmarks with egocentric videos are restricted due to data scarcity. To overcome the limited video availability, transferring knowledge from abundant exocentric web videos is demanded as a practical approach. However, learning the correspondence between exocentric and egocentric views is difficult due to their dynamic view changes. The web videos contain shots showing either full-body or hand regions, while the egocentric view is constantly shifting. This necessitates the in-depth study of cross-view transfer under complex view changes. To this end, we first create a real-life egocentric dataset (EgoYC2) whose captions follow the definition of YouCook2 captions, enabling transfer learning between these datasets with access to their ground-truth. To bridge the view gaps, we propose a view-invariant learning method using adversarial training, which consists of pre-training and fine-tuning stages. Our experiments confirm the effectiveness of overcoming the view change problem and knowledge transfer to egocentric views. Our benchmark pushes the study of cross-view transfer into a new task domain of dense video captioning and envisions methodologies that describe egocentric videos in natural language.
- Abstract(参考訳): 本稿では,エゴセントリックな視点からエゴセントリックな視点へ向けたウェブ指導ビデオからモデルを適応させる,高密度動画キャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。
濃密なビデオキャプション(予測時間セグメントとそのキャプション)は、主に、エゴセントリックなビデオ(例えばYouCook2)で研究されているが、データ不足のため、エゴセントリックなビデオのベンチマークは制限されている。
ビデオの可用性の限界を克服するためには、豊富なウェブビデオから知識を伝達することが現実的なアプローチとして求められている。
しかし、外心的視点と自我的視点の対応を学習することは、その動的視点の変化のため困難である。
Webビデオには、フルボディまたはハンドゾーンのショットが含まれており、エゴセントリックなビューは常にシフトしている。
これは、複雑なビュー変化の下でのクロスビュー転送の詳細な研究を必要とする。
この目的のために、私たちはまず、YouCook2キャプションの定義に従う実生活型エゴセントリックデータセット(EgoYC2)を作成します。
ビューギャップを埋めるために,事前学習と微調整の段階からなる逆学習を用いたビュー不変学習手法を提案する。
本実験は,視点変化問題と自己中心的な視点への知識伝達を克服する効果を検証した。
本ベンチマークでは,高密度動画キャプションのタスク領域へのクロスビュー転送の研究を推し進めるとともに,自我中心の動画を自然言語で記述する方法論を構想する。
関連論文リスト
- Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object
Interaction in the Multi-View World [59.545114016224254]
人間は、手と物体の相互作用の第三者による観察をエゴセントリックな視点に変換するのに長けている。
本稿では,自我中心の動画をほとんど持たない視点適応を実現するための,Prompt-Oriented View-Agnostic Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:54:44Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Cross-view Action Recognition Understanding From Exocentric to Egocentric Perspective [13.776455033015216]
本稿では,アクション認識のための新しいクロスビュー学習手法を提案する。
まず,トランスフォーマーの自己注意機構に幾何学的制約を新たに導入する。
そこで本稿では, 自己意識のメカニズムを学習し, 知識を視点間で伝達するために, 自己意識を学習するために, 未確認のクロスビューデータに基づいて学習した, 新たな自己意識の喪失を提案する。
論文 参考訳(メタデータ) (2023-05-25T04:14:49Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。