論文の概要: HiERO: understanding the hierarchy of human behavior enhances reasoning on egocentric videos
- arxiv url: http://arxiv.org/abs/2505.12911v1
- Date: Mon, 19 May 2025 09:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.52437
- Title: HiERO: understanding the hierarchy of human behavior enhances reasoning on egocentric videos
- Title(参考訳): HiERO:人間行動の階層構造を理解することは、自我中心の動画の推論を促進する
- Authors: Simone Alberto Peirone, Francesca Pistilli, Giuseppe Averta,
- Abstract要約: ビデオセグメントの特徴を階層的なアクティビティスレッドで拡張する弱い教師付き手法であるHiEROを提案する。
ビデオクリップをナレーション付き記述に合わせることで、HiEROはコンテキスト的、意味的、時間的推論を階層的アーキテクチャで推論する。
- 参考スコア(独自算出の注目度): 2.6749843984691672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activities are particularly complex and variable, and this makes challenging for deep learning models to reason about them. However, we note that such variability does have an underlying structure, composed of a hierarchy of patterns of related actions. We argue that such structure can emerge naturally from unscripted videos of human activities, and can be leveraged to better reason about their content. We present HiERO, a weakly-supervised method to enrich video segments features with the corresponding hierarchical activity threads. By aligning video clips with their narrated descriptions, HiERO infers contextual, semantic and temporal reasoning with an hierarchical architecture. We prove the potential of our enriched features with multiple video-text alignment benchmarks (EgoMCQ, EgoNLQ) with minimal additional training, and in zero-shot for procedure learning tasks (EgoProceL and Ego4D Goal-Step). Notably, HiERO achieves state-of-the-art performance in all the benchmarks, and for procedure learning tasks it outperforms fully-supervised methods by a large margin (+12.5% F1 on EgoProceL) in zero shot. Our results prove the relevance of using knowledge of the hierarchy of human activities for multiple reasoning tasks in egocentric vision.
- Abstract(参考訳): 人間の活動は特に複雑で可変的であり、深層学習モデルがそれらを推論することは困難である。
しかし、そのような変動性は、関連するアクションのパターンの階層構造からなる基盤構造を持つことに留意する。
このような構造は人間の活動の動画から自然に生み出すことができ、それらのコンテンツに対するより良い推論に利用することができると我々は論じている。
ビデオセグメントの特徴を,対応する階層的アクティビティスレッドで強化する弱い教師付き手法であるHiEROを提案する。
ビデオクリップをナレーション付き記述に合わせることで、HiEROはコンテキスト的、意味的、時間的推論を階層的アーキテクチャで推論する。
我々は,複数のビデオテキストアライメントベンチマーク(EgoMCQ,EgoNLQ)を最小限の追加トレーニングで実施し,プロシージャ学習タスク(EgoProceL,Ego4D Goal-Step)をゼロショットで行うことで,豊富な機能の可能性を証明する。
特に、HiEROはすべてのベンチマークで最先端のパフォーマンスを達成し、プロシージャ学習タスクでは、ゼロショットで完全に教師されたメソッドを大きなマージン(EgoProceLでは+12.5% F1)で上回っている。
本研究は,人間行動の階層構造に関する知識を,自我中心の視覚における複数の推論タスクに利用することの意義を実証するものである。
関連論文リスト
- Hier-EgoPack: Hierarchical Egocentric Video Understanding with Diverse Task Perspectives [12.709881592333995]
多様な時間的粒度の推論を可能にすることで,EgoPackを進化させるHier-EgoPackを紹介した。
クリップレベルの推論とフレームレベルの推論の両方を含む複数のEgo4dベンチマークに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-02-04T17:03:49Z) - EAGLE: Egocentric AGgregated Language-video Engine [34.60423566630983]
我々は,Eagle(Egocentric AGgregated Language-video Engine)モデルとEagle-400Kデータセットを導入し,エゴセントリックなビデオ理解タスクを統合する統一フレームワークを提供する。
エゴセントリックなビデオ分析は、一人称視点から人間の活動や意図を理解するための新たな洞察をもたらす。
論文 参考訳(メタデータ) (2024-09-26T04:17:27Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。