論文の概要: EgoTaskQA: Understanding Human Tasks in Egocentric Videos
- arxiv url: http://arxiv.org/abs/2210.03929v1
- Date: Sat, 8 Oct 2022 05:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:05:07.040219
- Title: EgoTaskQA: Understanding Human Tasks in Egocentric Videos
- Title(参考訳): EgoTaskQA:Egocentric Videoにおけるヒューマンタスクの理解
- Authors: Baoxiong Jia, Ting Lei, Song-Chun Zhu, Siyuan Huang
- Abstract要約: EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
- 参考スコア(独自算出の注目度): 89.9573084127155
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding human tasks through video observations is an essential
capability of intelligent agents. The challenges of such capability lie in the
difficulty of generating a detailed understanding of situated actions, their
effects on object states (i.e., state changes), and their causal dependencies.
These challenges are further aggravated by the natural parallelism from
multi-tasking and partial observations in multi-agent collaboration. Most prior
works leverage action localization or future prediction as an indirect metric
for evaluating such task understanding from videos. To make a direct
evaluation, we introduce the EgoTaskQA benchmark that provides a single home
for the crucial dimensions of task understanding through question-answering on
real-world egocentric videos. We meticulously design questions that target the
understanding of (1) action dependencies and effects, (2) intents and goals,
and (3) agents' beliefs about others. These questions are divided into four
types, including descriptive (what status?), predictive (what will?),
explanatory (what caused?), and counterfactual (what if?) to provide diagnostic
analyses on spatial, temporal, and causal understandings of goal-oriented
tasks. We evaluate state-of-the-art video reasoning models on our benchmark and
show their significant gaps between humans in understanding complex
goal-oriented egocentric videos. We hope this effort will drive the vision
community to move onward with goal-oriented video understanding and reasoning.
- Abstract(参考訳): ビデオ観察によるヒューマンタスクの理解は、インテリジェントエージェントにとって必須の機能である。
このような能力の課題は、位置するアクションの詳細な理解、オブジェクト状態(状態変化など)への影響、そしてそれらの因果依存性の理解を困難にすることにある。
これらの課題は、マルチタスクからの自然な並列性と、マルチエージェントコラボレーションにおける部分的観察によってさらに悪化する。
ほとんどの先行研究では、アクションローカライゼーションや将来の予測をビデオからそのようなタスク理解を評価するための間接的指標として活用している。
直感的な評価を行うために,実世界のエゴセントリックなビデオに対する質問回答を通じて,タスク理解の重要な次元をひとつのホームとして提供するEgoTaskQAベンチマークを導入する。
我々は,(1)行動依存と影響,(2)意図と目標,(3)他者に対するエージェントの信念を理解することを目的とした質問を細心の注意を払って設計する。
これらの質問は、空間的、時間的、因果的タスクの診断的理解を提供するために、記述的(どの状態?)、予測的(何が起こるか?)、説明的(何が起こるか?)、反事実的(何が起こるか?)の4つのタイプに分けられる。
我々は,我々のベンチマークで最先端のビデオ推論モデルを評価し,人間の複雑な目標指向の自己中心的ビデオ理解における大きなギャップを示す。
この取り組みにより、ビジョンコミュニティは、ゴール指向のビデオ理解と推論によって前進することを期待しています。
関連論文リスト
- STAR: A Benchmark for Situated Reasoning in Real-World Videos [94.78038233351758]
本稿では,実世界のビデオに対して,状況抽象化と論理的質問応答による位置推論能力を評価する新しいベンチマークを提案する。
データセットには、インタラクション、シーケンス、予測、実現可能性の4つのタイプが含まれている。
本稿では,視覚知覚,状況抽象化,言語理解,機能推論を両立させることができる診断型ニューロシンボリックモデルを提案する。
論文 参考訳(メタデータ) (2024-05-15T21:53:54Z) - A Backpack Full of Skills: Egocentric Video Understanding with Diverse
Task Perspectives [5.515192437680944]
人間の行動の共有時間モデリングを最小限のオーバーヘッドで組み合わせたビデオ理解への統一的アプローチを模索する。
EgoPackは、下流のタスクにまたがって実行され、追加の洞察源となる可能性のあるタスクパースペクティブのコレクションを作成するソリューションである。
提案手法の有効性と効率を4つのEgo4Dベンチマークで示す。
論文 参考訳(メタデータ) (2024-03-05T15:18:02Z) - BDIQA: A New Dataset for Video Question Answering to Explore Cognitive
Reasoning through Theory of Mind [21.806678376095576]
心の理論(ToM)は、AIをより人間の思考プロセスによく似ている。
ビデオ質問応答(Video QA)データセットは、人間のToMを真に取り入れたイベントの因果推論を研究することに焦点を当てている。
本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
論文 参考訳(メタデータ) (2024-02-12T04:34:19Z) - EgoTV: Egocentric Task Verification from Natural Language Task
Descriptions [9.503477434050858]
我々は、Egocentric Task Verification (EgoTV)と呼ばれるベンチマークと合成データセットを提案する。
EgoTVの目標は、これらのタスクの自然言語記述に基づいて、エゴセントリックなビデオからタスクの実行を検証することである。
本稿では,記号表現を利用したニューロシンボリックグラウンド(NSG)手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T19:16:49Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - Episodic Memory Question Answering [55.83870351196461]
我々は、人間がAIエージェントと対話し、質問することで拡張現実デバイスを駆動するシナリオを思い描いている。
成功するためには、エゴAIアシスタントはセマンティックにリッチで効率的なシーン記憶を構築する必要がある。
EMQA(Episodic Memory Question Answering)という新しいタスクを紹介します。
私たちが選択したエピソードシーンメモリは、非常に競争力のあるベースラインのホストであると同時に、そのタスクに対して、単純でオフザセンシティブなソリューションよりも優れています。
論文 参考訳(メタデータ) (2022-05-03T17:28:43Z) - HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem
Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。
エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。
このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文 参考訳(メタデータ) (2021-02-22T20:37:01Z) - DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文 参考訳(メタデータ) (2020-05-07T09:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。