論文の概要: Egocentric Video Task Translation
- arxiv url: http://arxiv.org/abs/2212.06301v2
- Date: Thu, 6 Apr 2023 21:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 15:05:31.797418
- Title: Egocentric Video Task Translation
- Title(参考訳): エゴセントリックビデオタスク翻訳
- Authors: Zihui Xue, Yale Song, Kristen Grauman, Lorenzo Torresani
- Abstract要約: EgoTask Translation (EgoT2) を提案する。EgoTask Translation (EgoT2) は,個別のタスクに最適化されたモデルの集合をとり,各タスクの出力を一度に変換し,任意のタスクやすべてのタスクのパフォーマンスを改善する。
従来のトランスファーやマルチタスク学習とは異なり、EgoT2のフリップした設計では、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、不均一なタスク間のシナジーを捕捉し、タスク競合を緩和する。
- 参考スコア(独自算出の注目度): 109.30649877677257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Different video understanding tasks are typically treated in isolation, and
even with distinct types of curated data (e.g., classifying sports in one
dataset, tracking animals in another). However, in wearable cameras, the
immersive egocentric perspective of a person engaging with the world around
them presents an interconnected web of video understanding tasks -- hand-object
manipulations, navigation in the space, or human-human interactions -- that
unfold continuously, driven by the person's goals. We argue that this calls for
a much more unified approach. We propose EgoTask Translation (EgoT2), which
takes a collection of models optimized on separate tasks and learns to
translate their outputs for improved performance on any or all of them at once.
Unlike traditional transfer or multi-task learning, EgoT2's flipped design
entails separate task-specific backbones and a task translator shared across
all tasks, which captures synergies between even heterogeneous tasks and
mitigates task competition. Demonstrating our model on a wide array of video
tasks from Ego4D, we show its advantages over existing transfer paradigms and
achieve top-ranked results on four of the Ego4D 2022 benchmark challenges.
- Abstract(参考訳): 異なるビデオ理解タスクは通常、独立して扱われ、異なるタイプのキュレートされたデータ(例えば、あるデータセットでスポーツを分類し、別のデータセットで動物を追跡するなど)でも扱われる。
しかし、ウェアラブルカメラでは、周囲の世界に携わる人々の没入的な自我中心の視点は、手動操作、空間内のナビゲーション、人間と人間のインタラクションといった、人の目標によって連続的に展開されるビデオ理解タスクの相互接続の網を提示する。
より統一的なアプローチが必要だ、と私たちは主張する。
我々はegotask translation (egot2) を提案する。これは別々のタスクに最適化されたモデルの集合を取り込み、それらのアウトプットを変換して、それらのいずれかまたはすべてのパフォーマンスを一度に向上させる。
従来のトランスファーやマルチタスク学習とは異なり、egot2のflippedデザインでは、タスク固有のバックボーンとタスクトランスレータがすべてのタスクで共有され、異種タスク間のシナジーをキャプチャし、タスク競合を緩和する。
Ego4Dの幅広いビデオタスクにおけるモデルを実証し、既存の転送パラダイムよりも優位性を示し、Ego4D 2022ベンチマークの4つの課題で上位にランクされた結果を得る。
関連論文リスト
- Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives [194.06650316685798]
Ego-Exo4Dは、熟練した人間の活動を同時に捉えたエゴセントリックでエゴセントリックなビデオを中心にしている。
世界の13都市から740人の参加者が123の異なる自然環境下でこれらの活動を行った。
ビデオにはマルチチャンネルオーディオ、視線、3Dポイントクラウド、カメラポーズ、IMU、複数対の言語記述が添付されている。
論文 参考訳(メタデータ) (2023-11-30T05:21:07Z) - Video Task Decathlon: Unifying Image and Video Tasks in Autonomous
Driving [85.62076860189116]
Video Task Decathlon (VTD)には、分類、セグメンテーション、ローカライゼーション、オブジェクトとピクセルの関連にまたがる10の代表的な画像とビデオタスクが含まれている。
我々は、単一の構造と10タスクすべてに一組の重みを持つ統合ネットワークVTDNetを開発した。
論文 参考訳(メタデータ) (2023-09-08T16:33:27Z) - EgoTV: Egocentric Task Verification from Natural Language Task
Descriptions [9.503477434050858]
我々は、Egocentric Task Verification (EgoTV)と呼ばれるベンチマークと合成データセットを提案する。
EgoTVの目標は、これらのタスクの自然言語記述に基づいて、エゴセントリックなビデオからタスクの実行を検証することである。
本稿では,記号表現を利用したニューロシンボリックグラウンド(NSG)手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T19:16:49Z) - MINOTAUR: Multi-task Video Grounding From Multimodal Queries [70.08973664126873]
長文ビデオにおける問合せに基づくビデオ理解に一貫した単一のモデルを提案する。
特に、我々のモデルは、Ego4D Episodic Memoryベンチマークの3つのタスクすべてに対処できる。
論文 参考訳(メタデータ) (2023-02-16T04:00:03Z) - Egocentric Video Task Translation @ Ego4D Challenge 2022 [109.30649877677257]
EgoTask Translationアプローチは、Ego4Dチャレンジにおけるエゴ中心のビデオタスク間の関係を探索する。
本稿では,他のタスク用に開発された既存のモデルを活用し,タスクを「翻訳」するタスクを主タスクに導入することを提案する。
提案手法は,2つのEgo4D課題において,PNRローカライゼーション課題において第1位,第3位にランクインする。
論文 参考訳(メタデータ) (2023-02-03T18:05:49Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。