論文の概要: EgoTV: Egocentric Task Verification from Natural Language Task
Descriptions
- arxiv url: http://arxiv.org/abs/2303.16975v3
- Date: Mon, 17 Apr 2023 18:04:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 17:17:41.928318
- Title: EgoTV: Egocentric Task Verification from Natural Language Task
Descriptions
- Title(参考訳): EgoTV: 自然言語タスク記述からエゴセントリックなタスク検証
- Authors: Rishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai
- Abstract要約: 我々は、Egocentric Task Verification (EgoTV)と呼ばれるベンチマークと合成データセットを提案する。
EgoTVには、複数のサブタスクの分解、状態変更、オブジェクトのインタラクション、サブタスクの順序制約を備えたマルチステップタスクが含まれている。
また,このようなタスクの因果的,時間的,構成的推論を可能にする新しいニューロシンボリックグラウンドディング(NSG)手法を提案する。
- 参考スコア(独自算出の注目度): 9.58707552873778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enable progress towards egocentric agents capable of understanding
everyday tasks specified in natural language, we propose a benchmark and a
synthetic dataset called Egocentric Task Verification (EgoTV). EgoTV contains
multi-step tasks with multiple sub-task decompositions, state changes, object
interactions, and sub-task ordering constraints, in addition to abstracted task
descriptions that contain only partial details about ways to accomplish a task.
We also propose a novel Neuro-Symbolic Grounding (NSG) approach to enable the
causal, temporal, and compositional reasoning of such tasks. We demonstrate
NSG's capability towards task tracking and verification on our EgoTV dataset
and a real-world dataset derived from CrossTask (CTV). Our contributions
include the release of the EgoTV and CTV datasets, and the NSG model for future
research on egocentric assistive agents.
- Abstract(参考訳): 自然言語で特定された日常的なタスクを理解可能なエゴセントリックエージェントへの進歩を実現するために,egocentric task verification(egotv)と呼ばれるベンチマークと合成データセットを提案する。
EgoTVには、複数のサブタスクの分解、状態変更、オブジェクトのインタラクション、サブタスクの順序制約を含むマルチステップタスクに加えて、タスクの達成方法に関する部分的な詳細のみを含む抽象化されたタスク記述が含まれている。
また,このようなタスクの因果的,時間的,構成的推論を可能にする新しいニューロシンボリックグラウンドディング(NSG)手法を提案する。
EgoTVデータセットとCTV(CrossTask)から派生した実世界のデータセット上で,タスクトラッキングと検証に対するNSGの機能を示す。
コントリビューションには、EgoTVおよびCTVデータセットのリリースと、エゴセントリック補助剤の研究のためのNSGモデルが含まれている。
関連論文リスト
- EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。
EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。
クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文 参考訳(メタデータ) (2024-03-24T15:00:44Z) - Action Scene Graphs for Long-Form Understanding of Egocentric Videos [23.058999979457546]
Egocentric Action Scene Graphs (EASGs) は、Egocentric Videoの長期的理解のための新しい表現である。
EASGは、カメラ装着者が行うアクションの時間的に進化したグラフベースの記述を提供する。
実験とアノテーションを複製するデータセットとコードを公開します。
論文 参考訳(メタデータ) (2023-12-06T10:01:43Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Egocentric Video Task Translation @ Ego4D Challenge 2022 [109.30649877677257]
EgoTask Translationアプローチは、Ego4Dチャレンジにおけるエゴ中心のビデオタスク間の関係を探索する。
本稿では,他のタスク用に開発された既存のモデルを活用し,タスクを「翻訳」するタスクを主タスクに導入することを提案する。
提案手法は,2つのEgo4D課題において,PNRローカライゼーション課題において第1位,第3位にランクインする。
論文 参考訳(メタデータ) (2023-02-03T18:05:49Z) - Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文 参考訳(メタデータ) (2022-12-13T00:47:13Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。