Fugu-MT 論文翻訳(概要): Action Scene Graphs for Long-Form Understanding of Egocentric Videos

論文の概要: Action Scene Graphs for Long-Form Understanding of Egocentric Videos

arxiv url: http://arxiv.org/abs/2312.03391v1
Date: Wed, 6 Dec 2023 10:01:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 15:20:50.831390
Title: Action Scene Graphs for Long-Form Understanding of Egocentric Videos
Title（参考訳）: エゴセントリックビデオの長期的理解のためのアクションシーングラフ
Authors: Ivan Rodin, Antonino Furnari, Kyle Min, Subarna Tripathi, Giovanni Maria Farinella
Abstract要約: Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。 EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。実験とアノテーションを複製するデータセットとコードを公開します。
参考スコア（独自算出の注目度）: 23.058999979457546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Egocentric Action Scene Graphs (EASGs), a new representation for long-form understanding of egocentric videos. EASGs extend standard manually-annotated representations of egocentric videos, such as verb-noun action labels, by providing a temporally evolving graph-based description of the actions performed by the camera wearer, including interacted objects, their relationships, and how actions unfold in time. Through a novel annotation procedure, we extend the Ego4D dataset by adding manually labeled Egocentric Action Scene Graphs offering a rich set of annotations designed for long-from egocentric video understanding. We hence define the EASG generation task and provide a baseline approach, establishing preliminary benchmarks. Experiments on two downstream tasks, egocentric action anticipation and egocentric activity summarization, highlight the effectiveness of EASGs for long-form egocentric video understanding. We will release the dataset and the code to replicate experiments and annotations.
Abstract（参考訳）: Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。 EASGは、対話オブジェクト、それらの関係、アクションが時間内にどのように広がるかを含む、カメラ装着者が実行するアクションの時間的に進化したグラフベースの記述を提供することによって、動詞名詞アクションラベルのような、エゴセントリックなビデオの標準的な手動アノテーション表現を拡張している。新しいアノテーション手順を通じて、ego4dデータセットを拡張し、手作業でラベル付けしたegocentric action scene graphを追加して、egocentric video理解のための豊富なアノテーションセットを提供する。そこで我々は,EASG生成タスクを定義し,ベースラインアプローチを提供し,予備ベンチマークを確立する。 egocentric action anticipation と egocentric activity summarization の2つの下流課題の実験では, egocentric video 理解における easg の有効性が示された。実験とアノテーションを複製するデータセットとコードを公開します。

関連論文リスト

Keystep Recognition using Graph Neural Networks [11.421362760480527]
我々は,エゴセントリックビデオにおけるキーステップ認識のためのフレキシブルなグラフ学習フレームワークを提案する。構築されたグラフはスパースで計算効率が良く、既存のより大きなモデルを大幅に上回っている。 Ego-Exo4Dデータセット上で広範な実験を行い、提案したフレキシブルグラフベースのフレームワークが既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-06-01T17:54:58Z)
Object-Shot Enhanced Grounding Network for Egocentric Video [60.97916755629796]
我々は,エゴセントリックビデオのためのオブジェクトショット拡張グラウンドネットワークOSGNetを提案する。具体的には,映像表現を豊かにするために,映像から対象情報を抽出する。我々は,エゴセントリックなビデオに固有の撮影動作を分析し,これらの特徴を活用して,装着者の注意情報を抽出する。
論文参考訳（メタデータ） (2025-05-07T09:20:12Z)
EgoExo-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos [49.24266108952835]
エゴ中心の動画、対応するエゴ中心のビデオの最初のフレーム、テキストによる指示が与えられたら、エゴ中心のビデオの未来的なフレームを生成することが目的である。 EgoExo-Genは、クロスビュービデオ予測のための手動オブジェクトのダイナミクスを明示的にモデル化する。
論文参考訳（メタデータ） (2025-04-16T03:12:39Z)
Graph-Based Multimodal and Multi-view Alignment for Keystep Recognition [11.421362760480527]
そこで我々は,エゴセントリックビデオにおける微粒化キーステップ認識のためのフレキシブルなグラフ学習フレームワークを提案する。提案手法は,既存の手法よりも12ポイント以上精度が高いことを示す。ヘテロジニアスグラフ上でのナレーション,深さ,オブジェクトクラスラベルなど,複数のマルチモーダル特徴の活用について検討する。
論文参考訳（メタデータ） (2025-01-07T20:02:55Z)
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation [30.350824860817536]
EgoVid-5Mは、エゴ中心のビデオ生成のための最初の高品質なデータセットである。本稿では,アクション記述とキネマティック制御信号によって同時に駆動されるエゴセントリックなビデオを生成するEgoDreamerを紹介する。
論文参考訳（メタデータ） (2024-11-13T07:05:40Z)
Unlocking Exocentric Video-Language Data for Egocentric Video Representation Learning [80.37314291927889]
EMBEDは、エゴセントリックなビデオ表現学習のための、エゴセントリックなビデオ言語データを変換するために設計された手法である。エゴセントリックなビデオは、主にクローズアップなハンドオブジェクトのインタラクションを特徴としているのに対し、エゴセントリックなビデオは、人間の活動に対してより広い視点を提供する。視覚と言語スタイルの転送の両方を適用することで、私たちのフレームワークは新しいエゴセントリックなデータセットを作成します。
論文参考訳（メタデータ） (2024-08-07T06:10:45Z)
EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding [27.881857222850083]
EgoExo-Fitnessは新しいフルボディアクション理解データセットである。シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。 EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
論文参考訳（メタデータ） (2024-06-13T07:28:45Z)
Object Aware Egocentric Online Action Detection [23.504280692701272]
我々は,egocentric-specific presを既存のオンライン行動検出フレームワークに統合するObject-Aware Moduleを紹介した。私たちの作業は最小限のオーバーヘッドで既存のモデルにシームレスに統合することができ、一貫したパフォーマンス向上をもたらします。
論文参考訳（メタデータ） (2024-06-03T07:58:40Z)
EgoNCE++: Do Egocentric Video-Language Models Really Understand Hand-Object Interactions? [48.702973928321946]
我々は、EgoNCE++という新しい非対称なコントラスト対象をEgoHOIに導入する。実験の結果,EgoNCE++はオープン語彙HOI認識,マルチインスタンス検索,アクション認識タスクを著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-28T00:27:29Z)
Retrieval-Augmented Egocentric Video Captioning [53.2951243928289]
EgoInstructor(エゴインストラクタ)は、意味的に関連する第三者の指導ビデオを自動的に検索する、検索拡張マルチモーダルキャプションモデルである。我々は、エゴセントリックでエゴセントリックなビデオ機能を引き出す新しいEgoExoNCE損失でクロスビュー検索モジュールをトレーニングし、同様のアクションを記述した共有テキスト機能にアライメントすることで、より近づいた。
論文参考訳（メタデータ） (2024-01-01T15:31:06Z)
LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning [27.661804052577825]
我々は、エゴセントリックなアクションフレーム生成という新しい問題を導入する。ユーザプロンプトと入力エゴセントリック画像に条件付けすることで、ユーザのコンテキスト(例えばアクションフレーム)におけるアクションを描写した画像を合成する。
論文参考訳（メタデータ） (2023-12-06T19:02:40Z)
Learning Fine-grained View-Invariant Representations from Unpaired Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文参考訳（メタデータ） (2023-06-08T19:54:08Z)
Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。 3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文参考訳（メタデータ） (2022-06-03T16:28:58Z)
Learning to Recognize Actions on Objects in Egocentric Video with Attention Dictionaries [51.48859591280838]
ビデオアクション認識のためのディープニューラルアーキテクチャであるEgoACOを紹介する。フレームレベルの機能からアクションコンテキストオブジェクト記述子をプールする。 Capは学習可能な重みの辞書を使って、最も関連性の高い特徴領域からプールする。
論文参考訳（メタデータ） (2021-02-16T10:26:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。