論文の概要: AMEGO: Active Memory from long EGOcentric videos
- arxiv url: http://arxiv.org/abs/2409.10917v1
- Date: Tue, 17 Sep 2024 06:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 17:48:51.768409
- Title: AMEGO: Active Memory from long EGOcentric videos
- Title(参考訳): AMEGO:長いEGO中心のビデオからのアクティブメモリ
- Authors: Gabriele Goletto, Tushar Nagarajan, Giuseppe Averta, Dima Damen,
- Abstract要約: 非常に長いエゴセントリックなビデオの理解を深めるための新しいアプローチであるAMEGOを紹介する。
AMEGOは、人間が単一の視聴から情報を維持する能力に触発され、一つの自我中心のビデオから自己完結した表現を構築することに焦点を当てる。
この表現はセマンティックフリーであり、視覚的コンテンツ全体を再処理することなく、複数のクエリを容易にする。
- 参考スコア(独自算出の注目度): 26.04157621755452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Egocentric videos provide a unique perspective into individuals' daily experiences, yet their unstructured nature presents challenges for perception. In this paper, we introduce AMEGO, a novel approach aimed at enhancing the comprehension of very-long egocentric videos. Inspired by the human's ability to maintain information from a single watching, AMEGO focuses on constructing a self-contained representations from one egocentric video, capturing key locations and object interactions. This representation is semantic-free and facilitates multiple queries without the need to reprocess the entire visual content. Additionally, to evaluate our understanding of very-long egocentric videos, we introduce the new Active Memories Benchmark (AMB), composed of more than 20K of highly challenging visual queries from EPIC-KITCHENS. These queries cover different levels of video reasoning (sequencing, concurrency and temporal grounding) to assess detailed video understanding capabilities. We showcase improved performance of AMEGO on AMB, surpassing other video QA baselines by a substantial margin.
- Abstract(参考訳): エゴセントリックなビデオは個人の日常体験にユニークな視点を与えるが、その非構造的な性質は知覚に挑戦を与える。
本稿では,非常に長いエゴセントリックなビデオの理解を深めるための新しいアプローチであるAMEGOを紹介する。
AMEGOは、人間が単一の視聴から情報を維持する能力に触発され、一つの自我中心のビデオから自己完結した表現を構築することに集中し、重要な位置とオブジェクトの相互作用をキャプチャする。
この表現はセマンティックフリーであり、視覚的コンテンツ全体を再処理することなく、複数のクエリを容易にする。
さらに, EPIC-KITCHENSからの難易度の高い視覚的クエリの20K以上からなる, AMB (Active Memories Benchmark) を導入する。
これらのクエリは、詳細なビデオ理解能力を評価するために、さまざまなレベルのビデオ推論(シーケンス、並行性、時間的グラウンド)をカバーする。
AMBではAMEGOの性能が向上し、他のQAベースラインをかなり上回りました。
関連論文リスト
- MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Ego4D: Around the World in 3,000 Hours of Egocentric Video [276.1326075259486]
Ego4Dは大規模なビデオデータセットとベンチマークスイートである。
世界中の74か国と9か国から、855人のユニークなカメラ着用者が捉えた数百のシナリオを、毎日3,025時間の動画で見ることができる。
ビデオにはオーディオ、環境の3Dメッシュ、視線、ステレオ、および/または複数のエゴセントリックカメラからの同期ビデオが添付されている。
論文 参考訳(メタデータ) (2021-10-13T22:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。