論文の概要: Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video Representations
- arxiv url: http://arxiv.org/abs/2503.19706v1
- Date: Tue, 25 Mar 2025 14:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:45.931554
- Title: Bootstrap Your Own Views: Masked Ego-Exo Modeling for Fine-grained View-invariant Video Representations
- Title(参考訳): Bootstrap your own views: Masked Ego-Exo Modeling for Fine-fine View-invariant Video Representation
- Authors: Jungin Park, Jiyoung Lee, Kwanghoon Sohn,
- Abstract要約: 本稿では,因果的時間的ダイナミクスと相互視的アライメントを促進するマスク付きエゴエクソモデリングを提案する。
我々は、堅牢なクロスビュー理解の基礎として、人間の行動の構成的性質を捉えることの重要性を強調した。
- 参考スコア(独自算出の注目度): 47.04855334955006
- License:
- Abstract: View-invariant representation learning from egocentric (first-person, ego) and exocentric (third-person, exo) videos is a promising approach toward generalizing video understanding systems across multiple viewpoints. However, this area has been underexplored due to the substantial differences in perspective, motion patterns, and context between ego and exo views. In this paper, we propose a novel masked ego-exo modeling that promotes both causal temporal dynamics and cross-view alignment, called Bootstrap Your Own Views (BYOV), for fine-grained view-invariant video representation learning from unpaired ego-exo videos. We highlight the importance of capturing the compositional nature of human actions as a basis for robust cross-view understanding. Specifically, self-view masking and cross-view masking predictions are designed to learn view-invariant and powerful representations concurrently. Experimental results demonstrate that our BYOV significantly surpasses existing approaches with notable gains across all metrics in four downstream ego-exo video tasks. The code is available at https://github.com/park-jungin/byov.
- Abstract(参考訳): エゴセントリック(ファーストパーソナリティー、エゴ)とエゴセントリック(サードパーソナリティー、エゴ)ビデオからのビュー不変表現学習は、複数の視点でビデオ理解システムを一般化するための有望なアプローチである。
しかし、この領域は、視点、動きパターン、エゴビューとエクソビューの文脈にかなりの差異があるため、調査が過小評価されている。
本稿では,不用意なエゴエゴエゴビデオから細粒度な映像表現学習を行うために,Bootstrap Your Own Views (BYOV) と呼ばれる,因果時間的ダイナミックスとクロスビューアライメントの両方を促進するマスク付きエゴエゴエゴモデリングを提案する。
我々は、堅牢なクロスビュー理解の基礎として、人間の行動の構成的性質を捉えることの重要性を強調した。
具体的には、ビュー不変かつ強力な表現を同時に学習するために、セルフビューマスキングとクロスビューマスキング予測を設計する。
実験の結果,BYOVは4つの下流エゴ・エゴ・エゴ・エゴ・ビデオタスクにおいて,既存の手法をはるかに上回り,すべての指標で顕著な利得を示した。
コードはhttps://github.com/park-jungin/byov.comから入手できる。
関連論文リスト
- Intention-driven Ego-to-Exo Video Generation [16.942040396018736]
エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。
本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。
我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
論文 参考訳(メタデータ) (2024-03-14T09:07:31Z) - Put Myself in Your Shoes: Lifting the Egocentric Perspective from
Exocentric Videos [66.46812056962567]
Exocentric-to-egocentric cross-view translationは、第三者(exocentric)の観点からアクターをキャプチャするビデオ録画に基づいて、アクターの1人(egocentric)ビューを生成することを目的としている。
そこで我々は,Exo2Egoという,翻訳過程を高次構造変換と画素レベルの幻覚の2段階に分解する生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T01:00:00Z) - POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object
Interaction in the Multi-View World [59.545114016224254]
人間は、手と物体の相互作用の第三者による観察をエゴセントリックな視点に変換するのに長けている。
本稿では,自我中心の動画をほとんど持たない視点適応を実現するための,Prompt-Oriented View-Agnostic Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T09:54:44Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos [25.910110689486952]
本稿では,高密度ビデオキャプションのクロスビュー知識伝達のための新しいベンチマークを提案する。
我々は、エゴセントリックな視点で見るWebインストラクショナルビデオのモデルを、エゴセントリックな視点に適応させる。
本実験は,視点変化問題と自己中心的な視点への知識伝達を克服する効果を検証した。
論文 参考訳(メタデータ) (2023-11-28T02:51:13Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。