論文の概要: EgoTV: Egocentric Task Verification from Natural Language Task
Descriptions
- arxiv url: http://arxiv.org/abs/2303.16975v5
- Date: Mon, 25 Sep 2023 19:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 18:07:11.443703
- Title: EgoTV: Egocentric Task Verification from Natural Language Task
Descriptions
- Title(参考訳): EgoTV: 自然言語タスク記述からエゴセントリックなタスク検証
- Authors: Rishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai
- Abstract要約: 我々は、Egocentric Task Verification (EgoTV)と呼ばれるベンチマークと合成データセットを提案する。
EgoTVの目標は、これらのタスクの自然言語記述に基づいて、エゴセントリックなビデオからタスクの実行を検証することである。
本稿では,記号表現を利用したニューロシンボリックグラウンド(NSG)手法を提案する。
- 参考スコア(独自算出の注目度): 9.503477434050858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enable progress towards egocentric agents capable of understanding
everyday tasks specified in natural language, we propose a benchmark and a
synthetic dataset called Egocentric Task Verification (EgoTV). The goal in
EgoTV is to verify the execution of tasks from egocentric videos based on the
natural language description of these tasks. EgoTV contains pairs of videos and
their task descriptions for multi-step tasks -- these tasks contain multiple
sub-task decompositions, state changes, object interactions, and sub-task
ordering constraints. In addition, EgoTV also provides abstracted task
descriptions that contain only partial details about ways to accomplish a task.
Consequently, EgoTV requires causal, temporal, and compositional reasoning of
video and language modalities, which is missing in existing datasets. We also
find that existing vision-language models struggle at such all round reasoning
needed for task verification in EgoTV. Inspired by the needs of EgoTV, we
propose a novel Neuro-Symbolic Grounding (NSG) approach that leverages symbolic
representations to capture the compositional and temporal structure of tasks.
We demonstrate NSG's capability towards task tracking and verification on our
EgoTV dataset and a real-world dataset derived from CrossTask (CTV). We
open-source the EgoTV and CTV datasets and the NSG model for future research on
egocentric assistive agents.
- Abstract(参考訳): 自然言語で特定された日常的なタスクを理解可能なエゴセントリックエージェントへの進歩を実現するために,egocentric task verification(egotv)と呼ばれるベンチマークと合成データセットを提案する。
egotvの目標は、これらのタスクの自然言語記述に基づいて、エゴセントリックビデオからタスクの実行を検証することである。
タスクには、複数のサブタスクの分解、状態の変更、オブジェクトのインタラクション、サブタスクの順序付けの制約が含まれている。
さらに、egotvはタスクの達成方法に関する部分的な詳細だけを含む抽象化されたタスク記述も提供する。
そのため、egotvは、既存のデータセットに欠けているビデオと言語モダリティの因果的、時間的、構成的推論を必要とする。
また、既存のビジョン言語モデルは、egotvのタスク検証に必要なラウンド推論に苦労していることも分かりました。
EgoTVのニーズに触発されて,記号表現を利用してタスクの構成構造と時間構造を捉える新しいニューロシンボリックグラウンド(NSG)アプローチを提案する。
EgoTVデータセットとCTV(CrossTask)から派生した実世界のデータセット上で,タスクトラッキングと検証に対するNSGの機能を示す。
egotv と ctv データセットと nsg モデルをオープンソースとして公開し,今後の egocentric assistive agents について検討する。
関連論文リスト
- Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-07-18T18:55:56Z) - EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding [27.881857222850083]
EgoExo-Fitnessは新しいフルボディアクション理解データセットである。
シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。
EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
論文 参考訳(メタデータ) (2024-06-13T07:28:45Z) - EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。