Fugu-MT 論文翻訳(概要): EgoTV: Egocentric Task Verification from Natural Language Task Descriptions

論文の概要: EgoTV: Egocentric Task Verification from Natural Language Task Descriptions

arxiv url: http://arxiv.org/abs/2303.16975v3
Date: Mon, 17 Apr 2023 18:04:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-19 17:17:41.928318
Title: EgoTV: Egocentric Task Verification from Natural Language Task Descriptions
Title（参考訳）: EgoTV: 自然言語タスク記述からエゴセントリックなタスク検証
Authors: Rishi Hazra, Brian Chen, Akshara Rai, Nitin Kamra, Ruta Desai
Abstract要約: 我々は、Egocentric Task Verification (EgoTV)と呼ばれるベンチマークと合成データセットを提案する。 EgoTVには、複数のサブタスクの分解、状態変更、オブジェクトのインタラクション、サブタスクの順序制約を備えたマルチステップタスクが含まれている。また,このようなタスクの因果的,時間的,構成的推論を可能にする新しいニューロシンボリックグラウンドディング(NSG)手法を提案する。
参考スコア（独自算出の注目度）: 9.58707552873778
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To enable progress towards egocentric agents capable of understanding everyday tasks specified in natural language, we propose a benchmark and a synthetic dataset called Egocentric Task Verification (EgoTV). EgoTV contains multi-step tasks with multiple sub-task decompositions, state changes, object interactions, and sub-task ordering constraints, in addition to abstracted task descriptions that contain only partial details about ways to accomplish a task. We also propose a novel Neuro-Symbolic Grounding (NSG) approach to enable the causal, temporal, and compositional reasoning of such tasks. We demonstrate NSG's capability towards task tracking and verification on our EgoTV dataset and a real-world dataset derived from CrossTask (CTV). Our contributions include the release of the EgoTV and CTV datasets, and the NSG model for future research on egocentric assistive agents.
Abstract（参考訳）: 自然言語で特定された日常的なタスクを理解可能なエゴセントリックエージェントへの進歩を実現するために,egocentric task verification(egotv)と呼ばれるベンチマークと合成データセットを提案する。 EgoTVには、複数のサブタスクの分解、状態変更、オブジェクトのインタラクション、サブタスクの順序制約を含むマルチステップタスクに加えて、タスクの達成方法に関する部分的な詳細のみを含む抽象化されたタスク記述が含まれている。また,このようなタスクの因果的,時間的,構成的推論を可能にする新しいニューロシンボリックグラウンドディング(NSG)手法を提案する。 EgoTVデータセットとCTV(CrossTask)から派生した実世界のデータセット上で,タスクトラッキングと検証に対するNSGの機能を示す。コントリビューションには、EgoTVおよびCTVデータセットのリリースと、エゴセントリック補助剤の研究のためのNSGモデルが含まれている。

関連論文リスト

HiERO: understanding the hierarchy of human behavior enhances reasoning on egocentric videos [2.6749843984691672]
ビデオセグメントの特徴を階層的なアクティビティスレッドで拡張する弱い教師付き手法であるHiEROを提案する。ビデオクリップをナレーション付き記述に合わせることで、HiEROはコンテキスト的、意味的、時間的推論を階層的アーキテクチャで推論する。
論文参考訳（メタデータ） (2025-05-19T09:47:41Z)
EgoLife: Towards Egocentric Life Assistant [60.51196061794498]
我々はEgoLifeを紹介した。EgoLifeは、AIを使ったウェアラブルグラスを通じて、個人の効率を向上するエゴセントリックなライフアシスタントを開発するプロジェクトだ。我々は、6人の参加者が1週間一緒に暮らし、マルチモーダル・エゴセントリックなビデオキャプチャーにAIグラスを使用して日々の活動を継続的に記録し、同期された3人称ビデオ参照を行う総合的なデータ収集研究を行った。この取り組みの結果、EgoLifeデータセットは、集中的なアノテーションを備えた300時間のエゴセントリック、対人、マルチビュー、マルチモーダルの日常生活データセットである。私たちはEgoLifeQAを紹介します。EgoLifeQAは、長いコンテキスト、ライフ指向の質問応答タスクのスイートで、提供するように設計されています。
論文参考訳（メタデータ） (2025-03-05T18:54:16Z)
Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文参考訳（メタデータ） (2024-07-18T18:55:56Z)
EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文参考訳（メタデータ） (2024-06-26T05:01:37Z)
EgoExo-Fitness: Towards Egocentric and Exocentric Full-Body Action Understanding [27.881857222850083]
EgoExo-Fitnessは新しいフルボディアクション理解データセットである。シンクロナイズドエゴセントリックカメラと固定型エゴセントリックカメラで撮影されたフィットネス・シーケンス・ビデオが特徴。 EgoExo-Fitnessは、エゴセントリックでエゴセントリックなフルボディの行動理解を研究するための新しいリソースを提供する。
論文参考訳（メタデータ） (2024-06-13T07:28:45Z)
Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。 EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文参考訳（メタデータ） (2024-05-28T00:27:29Z)
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World [44.34800426136217]
EgoExoLearnは、以下のプロセスで人間の実演をエミュレートするデータセットである。 EgoExoLearnには120時間にわたるエゴセントリックでデモ的なビデオデータが含まれている。クロスビューアソシエーション、クロスビューアクションプランニング、クロスビュー参照スキルアセスメントなどのベンチマークを提示する。
論文参考訳（メタデータ） (2024-03-24T15:00:44Z)
Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文参考訳（メタデータ） (2023-09-08T16:33:27Z)
Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。このタスクは、ビデオにおける空間的および時間的局所化を統一する。我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文参考訳（メタデータ） (2023-06-20T17:57:23Z)
Egocentric Video Task Translation [109.30649877677257]
EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
論文参考訳（メタデータ） (2022-12-13T00:47:13Z)
EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2022-10-08T05:49:05Z)
Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。 3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文参考訳（メタデータ） (2022-06-03T16:28:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。