論文の概要: From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities
- arxiv url: http://arxiv.org/abs/2501.05711v2
- Date: Tue, 25 Mar 2025 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:14:04.121054
- Title: From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities
- Title(参考訳): 私の考えからあなたへ:大規模視覚言語モデルにおけるEgo-Augmented Learningによる日中活動の理解
- Authors: Dominick Reilly, Manish Kumar Govind, Le Xue, Srijan Das,
- Abstract要約: 我々は,エゴセントリックな視点の相補的な性質を活用し,LVLMのエゴセントリックなADLビデオに対する理解を高めることを目的としている。
このアプローチは効果的だが、大規模な収集には実用的ではないペア付きエゴエクソビデオが必要である。
合成データに基づいて訓練されたLVLMのエゴ表現を強化するため,我々はドメイン・ア・ブートストラップ付きego2exogstic戦略を開発した。
- 参考スコア(独自算出の注目度): 7.952665773362793
- License:
- Abstract: Large Vision Language Models (LVLMs) have demonstrated impressive capabilities in video understanding, yet their adoption for Activities of Daily Living (ADL) remains limited by their inability to capture fine-grained interactions and spatial relationships. To address this, we aim to leverage the complementary nature of egocentric views to enhance LVLM's understanding of exocentric ADL videos. Consequently, we propose ego2exo knowledge distillation to learn ego-augmented exp representations. While effective, this approach requires paired ego-exo videos, which are impractical to collect at scale. To address this, we propose Skeleton-guided Synthetic Ego Generation (SK-EGO), which leverages human skeleton motion to generate synthetic ego views from exocentric videos. To enhance the ego representation of LVLMs trained on synthetic data, we develop a domain-agnostic bootstrapped ego2exo strategy that effectively transfers knowledge from real ego-exo pairs to synthetic ego-exo pairs, while mitigating domain misalignment. We find that the exo representations of our ego-augmented LVLMs successfully learn to extract ego-perspective cues, demonstrated through comprehensive evaluation on six ADL benchmarks and our proposed Ego-in-Exo PerceptionMCQ benchmark designed specifically to assess egocentric understanding from exocentric videos. Code, models, and data will be open-sourced at https://github.com/dominickrei/EgoExo4ADL.
- Abstract(参考訳): 大規模視覚言語モデル (LVLM) は映像理解において印象的な能力を発揮しているが, 日常生活活動 (ADL) への採用は, きめ細かい相互作用や空間的関係を捉えることができないために制限されている。
そこで我々は,エゴセントリックな視点の相補的な性質を活用して,LVLMのエゴセントリックなADLビデオに対する理解を高めることを目的とする。
その結果,ego2exo の知識蒸留により,ego2exo exp 表現の学習が可能となった。
このアプローチは効果的だが、大規模な収集には実用的ではないペア付きエゴエクソビデオが必要である。
そこで本研究では,人体骨格の動きを利用したSkeleton-Guided Synthetic Ego Generation (SK-EGO)を提案する。
合成データに基づいて訓練されたLVLMのエゴ表現を強化するため,実エゴ・エゴ・エゴ対から合成エゴ・エゴ対への知識伝達を効果的に行うドメイン非依存型エゴエゴエゴ戦略を開発した。
6つのADLベンチマークとEgo-in-Exo PerceptionMCQベンチマークを総合的に評価し,エゴセントリックなビデオからエゴセントリックな理解を評価することを目的とした。
コード、モデル、データはhttps://github.com/dominickrei/EgoExo4ADLでオープンソース化される。
関連論文リスト
- EAGLE: Egocentric AGgregated Language-video Engine [34.60423566630983]
我々は,Eagle(Egocentric AGgregated Language-video Engine)モデルとEagle-400Kデータセットを導入し,エゴセントリックなビデオ理解タスクを統合する統一フレームワークを提供する。
エゴセントリックなビデオ分析は、一人称視点から人間の活動や意図を理解するための新たな洞察をもたらす。
論文 参考訳(メタデータ) (2024-09-26T04:17:27Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoDistill: Egocentric Head Motion Distillation for Efficient Video
Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。
提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。
Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:39:23Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。