Fugu-MT 論文翻訳(概要): From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

論文の概要: From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities

arxiv url: http://arxiv.org/abs/2501.05711v2
Date: Tue, 25 Mar 2025 17:59:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 21:56:47.166242
Title: From My View to Yours: Ego-Augmented Learning in Large Vision Language Models for Understanding Exocentric Daily Living Activities
Title（参考訳）: 私の考えからあなたへ:大規模視覚言語モデルにおけるEgo-Augmented Learningによる日中活動の理解
Authors: Dominick Reilly, Manish Kumar Govind, Le Xue, Srijan Das,
Abstract要約: 我々は,エゴセントリックな視点の相補的な性質を活用し,LVLMのエゴセントリックなADLビデオに対する理解を高めることを目的としている。このアプローチは効果的だが、大規模な収集には実用的ではないペア付きエゴエクソビデオが必要である。合成データに基づいて訓練されたLVLMのエゴ表現を強化するため,我々はドメイン・ア・ブートストラップ付きego2exogstic戦略を開発した。
参考スコア（独自算出の注目度）: 7.952665773362793
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision Language Models (LVLMs) have demonstrated impressive capabilities in video understanding, yet their adoption for Activities of Daily Living (ADL) remains limited by their inability to capture fine-grained interactions and spatial relationships. To address this, we aim to leverage the complementary nature of egocentric views to enhance LVLM's understanding of exocentric ADL videos. Consequently, we propose ego2exo knowledge distillation to learn ego-augmented exp representations. While effective, this approach requires paired ego-exo videos, which are impractical to collect at scale. To address this, we propose Skeleton-guided Synthetic Ego Generation (SK-EGO), which leverages human skeleton motion to generate synthetic ego views from exocentric videos. To enhance the ego representation of LVLMs trained on synthetic data, we develop a domain-agnostic bootstrapped ego2exo strategy that effectively transfers knowledge from real ego-exo pairs to synthetic ego-exo pairs, while mitigating domain misalignment. We find that the exo representations of our ego-augmented LVLMs successfully learn to extract ego-perspective cues, demonstrated through comprehensive evaluation on six ADL benchmarks and our proposed Ego-in-Exo PerceptionMCQ benchmark designed specifically to assess egocentric understanding from exocentric videos. Code, models, and data will be open-sourced at https://github.com/dominickrei/EgoExo4ADL.
Abstract（参考訳）: 大規模視覚言語モデル (LVLM) は映像理解において印象的な能力を発揮しているが, 日常生活活動 (ADL) への採用は, きめ細かい相互作用や空間的関係を捉えることができないために制限されている。そこで我々は,エゴセントリックな視点の相補的な性質を活用して,LVLMのエゴセントリックなADLビデオに対する理解を高めることを目的とする。その結果,ego2exo の知識蒸留により,ego2exo exp 表現の学習が可能となった。このアプローチは効果的だが、大規模な収集には実用的ではないペア付きエゴエクソビデオが必要である。そこで本研究では,人体骨格の動きを利用したSkeleton-Guided Synthetic Ego Generation (SK-EGO)を提案する。合成データに基づいて訓練されたLVLMのエゴ表現を強化するため,実エゴ・エゴ・エゴ対から合成エゴ・エゴ対への知識伝達を効果的に行うドメイン非依存型エゴエゴエゴ戦略を開発した。 6つのADLベンチマークとEgo-in-Exo PerceptionMCQベンチマークを総合的に評価し,エゴセントリックなビデオからエゴセントリックな理解を評価することを目的とした。コード、モデル、データはhttps://github.com/dominickrei/EgoExo4ADLでオープンソース化される。

関連論文リスト

EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos [49.24266108952835]
エゴ中心の動画、対応するエゴ中心のビデオの最初のフレーム、テキストによる指示が与えられたら、エゴ中心のビデオの未来的なフレームを生成することが目的である。 EgoExo-Genは、クロスビュービデオ予測のための手動オブジェクトのダイナミクスを明示的にモデル化する。
論文参考訳（メタデータ） (2025-04-16T03:12:39Z)
Exo2Ego: Exocentric Knowledge Guided MLLM for Egocentric Video Understanding [69.96199605596138]
現在のMLLMは、主に第三者(外見中心)のビジョンに焦点を当てており、一対一(自我中心)の動画のユニークな側面を見下ろしている。本研究では,エゴ中心領域とエゴ中心領域のマッピングを学習し,エゴ中心領域の理解を高めることを提案する。 Ego-ExoClipは1.1M同期のEgo-Exoクリップテキストペアからなる事前学習データセットである。
論文参考訳（メタデータ） (2025-03-12T08:10:33Z)
EgoMe: A New Dataset and Challenge for Following Me via Egocentric View in Real World [12.699670048897085]
人間の模倣学習において、模倣者は、通常、自我中心の視点を基準として、自我中心の視点から自我中心の視点に観察された振る舞いを自然に伝達する。実世界における模倣者の自我中心的な視点を通じて、人間の模倣学習のプロセスに従うためのEgoMeを紹介する。我々のデータセットには7902対のエゴビデオが含まれており、様々な現実のシナリオにおいて多様な日々の行動にまたがっている。
論文参考訳（メタデータ） (2025-01-31T11:48:22Z)
Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文参考訳（メタデータ） (2024-08-07T06:10:45Z)
EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-28T00:27:29Z)
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。 EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文参考訳（メタデータ） (2024-03-24T15:00:44Z)
Intention-driven Ego-to-Exo Video Generation [16.942040396018736]
エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
論文参考訳（メタデータ） (2024-03-14T09:07:31Z)
Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文参考訳（メタデータ） (2024-01-01T15:31:06Z)
EgoDistill: Egocentric Head Motion Distillation for Efficient Video Understanding [90.9111678470214]
本稿では,重度エゴセントリックビデオクリップの再構成を学習する蒸留法であるEgoDistillを提案する。提案手法により効率が大幅に向上し,200倍のGFLOPが要求される。 Ego4D と EPICKitchens のデータセット上での有効性を示す。
論文参考訳（メタデータ） (2023-01-05T18:39:23Z)
Ego-Exo: Transferring Visual Representations from Third-person to First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文参考訳（メタデータ） (2021-04-16T06:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。