論文の概要: HCQA @ Ego4D EgoSchema Challenge 2024
- arxiv url: http://arxiv.org/abs/2406.15771v2
- Date: Tue, 29 Oct 2024 02:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 02:59:37.616752
- Title: HCQA @ Ego4D EgoSchema Challenge 2024
- Title(参考訳): HCQA @ Ego4D EgoSchema Challenge 2024
- Authors: Haoyu Zhang, Yuquan Xie, Yisen Feng, Zaijing Li, Meng Liu, Liqiang Nie,
- Abstract要約: HCQAという,エゴセントリックなビデオ質問応答方式を提案する。
細粒度キャプション生成、コンテキスト駆動の要約、推論誘導解答の3段階で構成されている。
盲目テストセットでは、HCQAは5000以上の人間選択質問に答える精度が75%に達する。
- 参考スコア(独自算出の注目度): 51.57555556405898
- License:
- Abstract: In this report, we present our champion solution for Ego4D EgoSchema Challenge in CVPR 2024. To deeply integrate the powerful egocentric captioning model and question reasoning model, we propose a novel Hierarchical Comprehension scheme for egocentric video Question Answering, named HCQA. It consists of three stages: Fine-grained Caption Generation, Context-driven Summarization, and Inference-guided Answering. Given a long-form video, HCQA captures local detailed visual information and global summarised visual information via Fine-grained Caption Generation and Context-driven Summarization, respectively. Then in Inference-guided Answering, HCQA utilizes this hierarchical information to reason and answer given question. On the EgoSchema blind test set, HCQA achieves 75% accuracy in answering over 5,000 human curated multiple-choice questions. Our code will be released at https://github.com/Hyu-Zhang/HCQA.
- Abstract(参考訳): 本稿では,CVPR 2024におけるEgo4D EgoSchema Challengeのチャンピオンソリューションについて述べる。
強力な自我中心のキャプションモデルと質問推理モデルを深く統合するために,HCQA という,自我中心のビデオ質問回答のための階層的理解スキームを提案する。
細粒度キャプション生成、コンテキスト駆動の要約、推論誘導解答の3段階で構成されている。
HCQAは、長めのビデオが与えられたとき、局所的な詳細な視覚情報と、細粒度キャプション生成とコンテキスト駆動の要約によって、大域的に要約された視覚情報をキャプチャする。
次に、推論誘導解答法において、HCQAは、この階層的な情報を用いて、与えられた質問を推論し、答える。
EgoSchemaのブラインドテストセットでは、HCQAは5000人以上のキュレートされた複数の質問に対して75%の精度で回答する。
私たちのコードはhttps://github.com/Hyu-Zhang/HCQA.comでリリースされます。
関連論文リスト
- Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language
Understanding [53.275916136138996]
Egoは、250時間以上の実際のビデオデータにまたがる、非常に長い形式のビデオ質問回答データセットである。
それぞれの質問に対して、Egoは3分間のビデオクリップに基づいて、与えられた5つのオプションの中から正しい回答を選択する必要がある。
Egoは、第2の最も近いデータセットよりも5.7倍、他のビデオ理解データセットより10倍長い時間長を持つ。
論文 参考訳(メタデータ) (2023-08-17T17:59:59Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z) - Exploring Anchor-based Detection for Ego4D Natural Language Query [74.87656676444163]
本稿では,CVPR 2022におけるEgo4D自然言語クエリの課題について報告する。
上記の課題を解決するために,本課題の解決策を提案する。
論文 参考訳(メタデータ) (2022-08-10T14:43:37Z) - Egocentric Video-Language Pretraining @ Ego4D Challenge 2022 [74.04740069230692]
Ego4D課題に対するビデオ言語事前学習ソリューション citekevin2022egovlp を提案する。
上記の3つの設計に基づいて,エゴセントリックなビデオテキスト表現を複数のビデオダウンストリームタスクに転送可能な,事前訓練されたビデオ言語モデルを開発した。
論文 参考訳(メタデータ) (2022-07-04T12:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。