論文の概要: Grounded Question-Answering in Long Egocentric Videos
- arxiv url: http://arxiv.org/abs/2312.06505v3
- Date: Thu, 15 Feb 2024 15:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 12:13:34.175929
- Title: Grounded Question-Answering in Long Egocentric Videos
- Title(参考訳): 長編エゴセントリックビデオにおける質疑応答
- Authors: Shangzhe Di and Weidi Xie
- Abstract要約: 長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は, (i) クエリグラウンドディングと応答を統一モデルに統合し, エラー伝搬を低減すること, (ii) 大規模言語モデルを用いて効率的でスケーラブルなデータ合成を行うこと, (iii) 評価のためのクローズドなQAタスクを導入することにより, これらの課題に対処する。
- 参考スコア(独自算出の注目度): 46.405314250324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches to video understanding, mainly designed for short videos
from a third-person perspective, are limited in their applicability in certain
fields, such as robotics. In this paper, we delve into open-ended
question-answering (QA) in long, egocentric videos, which allows individuals or
robots to inquire about their own past visual experiences. This task presents
unique challenges, including the complexity of temporally grounding queries
within extensive video content, the high resource demands for precise data
annotation, and the inherent difficulty of evaluating open-ended answers due to
their ambiguous nature. Our proposed approach tackles these challenges by (i)
integrating query grounding and answering within a unified model to reduce
error propagation; (ii) employing large language models for efficient and
scalable data synthesis; and (iii) introducing a close-ended QA task for
evaluation, to manage answer ambiguity. Extensive experiments demonstrate the
effectiveness of our method, which also achieves state-of-the-art performance
on the QAEgo4D and Ego4D-NLQ benchmarks. Code, data, and models are available
at https://github.com/Becomebright/GroundVQA.
- Abstract(参考訳): ビデオ理解への既存のアプローチは、主に第三者の視点からの短いビデオ用に設計されており、ロボット工学などの特定の分野における適用性に制限がある。
本稿では,個人やロボットが過去の視覚的体験を尋ねることのできる,長くてエゴセントリックなビデオで,オープンエンドな質問回答(QA)を探索する。
この課題は、広範囲なビデオコンテンツにおけるクエリの時間的グラウンド化の複雑さ、正確なデータアノテーションに対する高いリソース要求、そのあいまいさによるオープンな回答評価の難しさなど、ユニークな課題を示す。
提案手法はこれらの課題に対処する
i) クエリグラウンディングと応答を統一モデルに統合し、エラーの伝搬を低減すること。
(二)大規模言語モデルによる効率的かつスケーラブルなデータ合成
三 回答のあいまいさを管理するため、評価のためのクローズドなQAタスクを導入すること。
また,QAEgo4DおよびEgo4D-NLQベンチマークにおいて,最先端性能を実現する手法の有効性を示す。
コード、データ、モデルはhttps://github.com/becomebright/groundvqaで入手できる。
関連論文リスト
- TVBench: Redesigning Video-Language Evaluation [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting [15.161997580529075]
本稿では,連続学習フレームワークにおけるビデオQAの新たな課題について考察する。
我々は,特定の質問制約の促進,知識獲得の促進,視覚的時間的認識の促進を統合した協調的プロンプト(ColPro)を提案する。
NExT-QAデータセットとDramaQAデータセットの実験的結果は、ColProが既存のアプローチよりも優れたパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-10-01T15:07:07Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。