論文の概要: Action Scene Graphs for Long-Form Understanding of Egocentric Videos
- arxiv url: http://arxiv.org/abs/2312.03391v1
- Date: Wed, 6 Dec 2023 10:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 15:20:50.831390
- Title: Action Scene Graphs for Long-Form Understanding of Egocentric Videos
- Title(参考訳): エゴセントリックビデオの長期的理解のためのアクションシーングラフ
- Authors: Ivan Rodin, Antonino Furnari, Kyle Min, Subarna Tripathi, Giovanni
Maria Farinella
- Abstract要約: Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。
実験とアノテーションを複製するデータセットとコードを公開します。
- 参考スコア(独自算出の注目度): 23.058999979457546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Egocentric Action Scene Graphs (EASGs), a new representation for
long-form understanding of egocentric videos. EASGs extend standard
manually-annotated representations of egocentric videos, such as verb-noun
action labels, by providing a temporally evolving graph-based description of
the actions performed by the camera wearer, including interacted objects, their
relationships, and how actions unfold in time. Through a novel annotation
procedure, we extend the Ego4D dataset by adding manually labeled Egocentric
Action Scene Graphs offering a rich set of annotations designed for long-from
egocentric video understanding. We hence define the EASG generation task and
provide a baseline approach, establishing preliminary benchmarks. Experiments
on two downstream tasks, egocentric action anticipation and egocentric activity
summarization, highlight the effectiveness of EASGs for long-form egocentric
video understanding. We will release the dataset and the code to replicate
experiments and annotations.
- Abstract(参考訳): Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、対話オブジェクト、それらの関係、アクションが時間内にどのように広がるかを含む、カメラ装着者が実行するアクションの時間的に進化したグラフベースの記述を提供することによって、動詞名詞アクションラベルのような、エゴセントリックなビデオの標準的な手動アノテーション表現を拡張している。
新しいアノテーション手順を通じて、ego4dデータセットを拡張し、手作業でラベル付けしたegocentric action scene graphを追加して、egocentric video理解のための豊富なアノテーションセットを提供する。
そこで我々は,EASG生成タスクを定義し,ベースラインアプローチを提供し,予備ベンチマークを確立する。
egocentric action anticipation と egocentric activity summarization の2つの下流課題の実験では, egocentric video 理解における easg の有効性が示された。
実験とアノテーションを複製するデータセットとコードを公開します。
関連論文リスト
- EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation [30.350824860817536]
EgoVid-5Mは、エゴ中心のビデオ生成のための最初の高品質なデータセットである。
本稿では,アクション記述とキネマティック制御信号によって同時に駆動されるエゴセントリックなビデオを生成するEgoDreamerを紹介する。
論文 参考訳(メタデータ) (2024-11-13T07:05:40Z) - Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。
エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。
視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文 参考訳(メタデータ) (2024-08-07T06:10:45Z) - EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding [27.881857222850083]
EgoExo-Fitnessは新しいフルボディアクション理解データセットである。
シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。
EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
論文 参考訳(メタデータ) (2024-06-13T07:28:45Z) - Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。
私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文 参考訳(メタデータ) (2024-06-03T07:58:40Z) - EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。
実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z) - Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning [27.661804052577825]
我々は、エゴセントリックなアクションフレーム生成という新しい問題を導入する。
ユーザプロンプトと入力エゴセントリック画像に条件付けすることで、ユーザのコンテキスト(例えばアクションフレーム)におけるアクションを描写した画像を合成する。
論文 参考訳(メタデータ) (2023-12-06T19:02:40Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries [51.48859591280838]
ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。
フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。
Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
論文 参考訳(メタデータ) (2021-02-16T10:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。