論文の概要: Action Scene Graphs for Long-Form Understanding of Egocentric Videos
- arxiv url: http://arxiv.org/abs/2312.03391v1
- Date: Wed, 6 Dec 2023 10:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 15:20:50.831390
- Title: Action Scene Graphs for Long-Form Understanding of Egocentric Videos
- Title(参考訳): エゴセントリックビデオの長期的理解のためのアクションシーングラフ
- Authors: Ivan Rodin, Antonino Furnari, Kyle Min, Subarna Tripathi, Giovanni
Maria Farinella
- Abstract要約: Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。
実験とアノテーションを複製するデータセットとコードを公開します。
- 参考スコア(独自算出の注目度): 23.058999979457546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Egocentric Action Scene Graphs (EASGs), a new representation for
long-form understanding of egocentric videos. EASGs extend standard
manually-annotated representations of egocentric videos, such as verb-noun
action labels, by providing a temporally evolving graph-based description of
the actions performed by the camera wearer, including interacted objects, their
relationships, and how actions unfold in time. Through a novel annotation
procedure, we extend the Ego4D dataset by adding manually labeled Egocentric
Action Scene Graphs offering a rich set of annotations designed for long-from
egocentric video understanding. We hence define the EASG generation task and
provide a baseline approach, establishing preliminary benchmarks. Experiments
on two downstream tasks, egocentric action anticipation and egocentric activity
summarization, highlight the effectiveness of EASGs for long-form egocentric
video understanding. We will release the dataset and the code to replicate
experiments and annotations.
- Abstract(参考訳): Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、対話オブジェクト、それらの関係、アクションが時間内にどのように広がるかを含む、カメラ装着者が実行するアクションの時間的に進化したグラフベースの記述を提供することによって、動詞名詞アクションラベルのような、エゴセントリックなビデオの標準的な手動アノテーション表現を拡張している。
新しいアノテーション手順を通じて、ego4dデータセットを拡張し、手作業でラベル付けしたegocentric action scene graphを追加して、egocentric video理解のための豊富なアノテーションセットを提供する。
そこで我々は,EASG生成タスクを定義し,ベースラインアプローチを提供し,予備ベンチマークを確立する。
egocentric action anticipation と egocentric activity summarization の2つの下流課題の実験では, egocentric video 理解における easg の有効性が示された。
実験とアノテーションを複製するデータセットとコードを公開します。
関連論文リスト
- Intention-driven Ego-to-Exo Video Generation [16.942040396018736]
エゴ・ツー・エゴ・ビデオ生成とは、エゴ中心モデルに従って対応するエゴ・エゴ・ビデオを生成することを指す。
本稿では、アクション記述をビュー非依存表現として活用する意図駆動型エクソ生成フレームワーク(IDE)を提案する。
我々は,多様なエゴビデオペアを用いた関連データセットの実験を行い,主観的および客観的な評価において,最先端のモデルよりも優れることを示した。
論文 参考訳(メタデータ) (2024-03-14T09:07:31Z) - Retrieval-Augmented Egocentric Video Captioning [55.96764681240016]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。
我々は、エゴセントリックでエゴセントリックなビデオ機能を引き寄せる新しいEgoExoNCE損失で、クロスビュー検索モジュールをトレーニングする。
論文 参考訳(メタデータ) (2024-01-01T15:31:06Z) - LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction
Tuning [29.310885220370412]
我々は、エゴセントリックなアクションフレーム生成という新しい問題を導入する。
目的は、ユーザのプロンプト質問と入力自我中心の画像に基づいてアクションフレーム条件を合成することである。
提案したモデルを,Ego4DとEpic-Kitchensという,エゴセントリックな2つのデータセットで検証する。
論文 参考訳(メタデータ) (2023-12-06T19:02:40Z) - Free-Form Composition Networks for Egocentric Action Recognition [97.02439848145359]
本稿では,不整形動詞,前置詞,名詞表現を同時に学習できる自由形合成ネットワーク(FFCN)を提案する。
提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-07-13T02:22:09Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z) - Ego-Exo: Transferring Visual Representations from Third-person to
First-person Videos [92.38049744463149]
大規模第3者映像データセットを用いた自己中心型映像モデルの事前訓練手法について紹介する。
私たちのアイデアは、重要なエゴセントリック特性を予測する第三者ビデオから潜在信号を見つけることです。
実験の結果,Ego-Exoフレームワークは標準ビデオモデルにシームレスに統合可能であることがわかった。
論文 参考訳(メタデータ) (2021-04-16T06:10:10Z) - Learning to Recognize Actions on Objects in Egocentric Video with
Attention Dictionaries [51.48859591280838]
ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。
フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。
Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
論文 参考訳(メタデータ) (2021-02-16T10:26:04Z) - Egocentric Object Manipulation Graphs [8.759425622561334]
Ego-OMGは、近い将来の行動の行動とモデリングの新たな表現である。
意味的時間構造、短期力学、外見の表現を統合している。
コードはEgo-OMGの承認を得てリリースされる。
論文 参考訳(メタデータ) (2020-06-05T02:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。