論文の概要: Grounded Question-Answering in Long Egocentric Videos
- arxiv url: http://arxiv.org/abs/2312.06505v3
- Date: Thu, 15 Feb 2024 15:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 12:13:34.175929
- Title: Grounded Question-Answering in Long Egocentric Videos
- Title(参考訳): 長編エゴセントリックビデオにおける質疑応答
- Authors: Shangzhe Di and Weidi Xie
- Abstract要約: 長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は, (i) クエリグラウンドディングと応答を統一モデルに統合し, エラー伝搬を低減すること, (ii) 大規模言語モデルを用いて効率的でスケーラブルなデータ合成を行うこと, (iii) 評価のためのクローズドなQAタスクを導入することにより, これらの課題に対処する。
- 参考スコア(独自算出の注目度): 46.405314250324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to video understanding, mainly designed for short videos
from a third-person perspective, are limited in their applicability in certain
fields, such as robotics. In this paper, we delve into open-ended
question-answering (QA) in long, egocentric videos, which allows individuals or
robots to inquire about their own past visual experiences. This task presents
unique challenges, including the complexity of temporally grounding queries
within extensive video content, the high resource demands for precise data
annotation, and the inherent difficulty of evaluating open-ended answers due to
their ambiguous nature. Our proposed approach tackles these challenges by (i)
integrating query grounding and answering within a unified model to reduce
error propagation; (ii) employing large language models for efficient and
scalable data synthesis; and (iii) introducing a close-ended QA task for
evaluation, to manage answer ambiguity. Extensive experiments demonstrate the
effectiveness of our method, which also achieves state-of-the-art performance
on the QAEgo4D and Ego4D-NLQ benchmarks. Code, data, and models are available
at https://github.com/Becomebright/GroundVQA.
- Abstract(参考訳): ビデオ理解への既存のアプローチは、主に第三者の視点からの短いビデオ用に設計されており、ロボット工学などの特定の分野における適用性に制限がある。
本稿では,個人やロボットが過去の視覚的体験を尋ねることのできる,長くてエゴセントリックなビデオで,オープンエンドな質問回答(QA)を探索する。
この課題は、広範囲なビデオコンテンツにおけるクエリの時間的グラウンド化の複雑さ、正確なデータアノテーションに対する高いリソース要求、そのあいまいさによるオープンな回答評価の難しさなど、ユニークな課題を示す。
提案手法はこれらの課題に対処する
i) クエリグラウンディングと応答を統一モデルに統合し、エラーの伝搬を低減すること。
(二)大規模言語モデルによる効率的かつスケーラブルなデータ合成
三 回答のあいまいさを管理するため、評価のためのクローズドなQAタスクを導入すること。
また,QAEgo4DおよびEgo4D-NLQベンチマークにおいて,最先端性能を実現する手法の有効性を示す。
コード、データ、モデルはhttps://github.com/becomebright/groundvqaで入手できる。
関連論文リスト
- Answering from Sure to Uncertain: Uncertainty-Aware Curriculum Learning
for Video Question Answering [63.12469700986452]
不確実性を考慮したカリキュラム学習(CL)の概念を導入する。
ここで不確実性は、困難を動的に調整するための指針となる。
実際に、我々は、ビデオQAモデルを我々のフレームワークにシームレスに統合し、包括的な実験を行う。
論文 参考訳(メタデータ) (2024-01-03T02:29:34Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NaQ: Leveraging Narrations as Queries to Supervise Episodic Memory [92.98552727430483]
Narrations-as-Queries (NaQ)は、標準的なビデオテキストナレーションをビデオクエリのローカライゼーションモデルのためのトレーニングデータに変換するデータ拡張戦略である。
NaQが複数のトップモデルを大幅に改善(精度を2倍に)
また、ゼロショットおよび少数ショットNLQの実行能力や、ロングテールオブジェクトカテゴリに関するクエリのパフォーマンス向上など、このアプローチのユニークな特性も示す。
論文 参考訳(メタデータ) (2023-01-02T16:40:15Z) - Is this Harmful? Learning to Predict Harmfulness Ratings from Video [15.059547998989537]
現場のプロが注釈を付けた約4000のビデオクリップのデータセットを作成します。
モデリング選択に関する詳細な研究を行い、視覚とオーディオのモダリティを組み合わせることで大きなメリットが得られます。
データセットは公開時に公開します。
論文 参考訳(メタデータ) (2021-06-15T17:57:12Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。