論文の概要: Exploring Anchor-based Detection for Ego4D Natural Language Query
- arxiv url: http://arxiv.org/abs/2208.05375v1
- Date: Wed, 10 Aug 2022 14:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-11 12:30:43.608746
- Title: Exploring Anchor-based Detection for Ego4D Natural Language Query
- Title(参考訳): Ego4D自然言語クエリに対するアンカーベース検出の探索
- Authors: Sipeng Zheng, Qi Zhang, Bei Liu, Qin Jin, Jianlong Fu
- Abstract要約: 本稿では,CVPR 2022におけるEgo4D自然言語クエリの課題について報告する。
上記の課題を解決するために,本課題の解決策を提案する。
- 参考スコア(独自算出の注目度): 74.87656676444163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we provide the technique report of Ego4D natural language query
challenge in CVPR 2022. Natural language query task is challenging due to the
requirement of comprehensive understanding of video contents. Most previous
works address this task based on third-person view datasets while few research
interest has been placed in the ego-centric view by far. Great progress has
been made though, we notice that previous works can not adapt well to
ego-centric view datasets e.g., Ego4D mainly because of two reasons: 1) most
queries in Ego4D have a excessively small temporal duration (e.g., less than 5
seconds); 2) queries in Ego4D are faced with much more complex video
understanding of long-term temporal orders. Considering these, we propose our
solution of this challenge to solve the above issues.
- Abstract(参考訳): 本稿では, cvpr 2022 における ego4d 自然言語問合せ課題の技術報告を行う。
映像コンテンツの包括的理解の必要性から,自然言語クエリタスクは困難である。
これまでのほとんどの研究は、サードパーティのビューデータセットに基づいてこのタスクに対処するが、エゴ中心のビューには研究の関心がほとんどない。
しかし、これまでの研究は、例えばEgo4Dのようなエゴ中心のビューデータセットにうまく適応できないことに気づきました。
1) Ego4D のほとんどのクエリは、時間持続時間が極端に小さい(例:5秒未満)。
2)Ego4Dのクエリは、時間的順序のより複雑なビデオ理解に直面している。
そこで我々は,これらの課題を解決するために,この課題の解決法を提案する。
関連論文リスト
- EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation [54.32133648259802]
CVPR 2024のEgoVis Challengesには、Ego4Dチャレンジの5トラックとEPIC-Kitchensチャレンジの3トラックが含まれています。
ビデオ言語2towerモデルを構築し,厳密に整理された自我中心型ビデオデータを活用することにより,EgoVideoという新しい基礎モデルを導入する。
このモデルは、エゴセントリックなビデオの特徴に特化して設計されており、当社のコンペティションへの強力なサポートを提供する。
論文 参考訳(メタデータ) (2024-06-26T05:01:37Z) - Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding [53.275916136138996]
Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。
それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。
Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
論文 参考訳(メタデータ) (2023-08-17T17:59:59Z) - Egocentric Video Task Translation @ Ego4D Challenge 2022 [109.30649877677257]
EgoTask Translationアプローチは、Ego4Dチャレンジにおけるエゴ中心のビデオタスク間の関係を探索する。
本稿では,他のタスク用に開発された既存のモデルを活用し,タスクを「翻訳」するタスクを主タスクに導入することを提案する。
提案手法は,2つのEgo4D課題において,PNRローカライゼーション課題において第1位,第3位にランクインする。
論文 参考訳(メタデータ) (2023-02-03T18:05:49Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Egocentric Video-Language Pretraining [74.04740069230692]
Video-Language Pretrainingは、転送可能な表現を学習して、幅広いビデオテキストダウンストリームタスクを前進させることを目的としている。
我々は、最近リリースされたEgo4Dデータセットを利用して、3方向のEgoセントリックトレーニングを開拓しました。
3つのデータセットにわたる5つのエゴセントリックなダウンストリームタスクに対して、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2022-06-03T16:28:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。