論文の概要: Object-centric Video Question Answering with Visual Grounding and Referring
- arxiv url: http://arxiv.org/abs/2507.19599v1
- Date: Fri, 25 Jul 2025 18:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:55.770155
- Title: Object-centric Video Question Answering with Visual Grounding and Referring
- Title(参考訳): 視覚的接地と参照による対象中心のビデオ質問応答
- Authors: Haochen Wang, Qirui Chen, Cilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie, Stratis Gavves,
- Abstract要約: 我々は、ビデオ推論タスクにおいて、入力参照と出力のグラウンド化の両方を実行することができるビデオLLMモデルを提案する。
また、ビデオ内の残りのフレームに対して、任意の時間スタンプで任意の視覚的プロンプト入力を伝搬する新しいアプローチであるSTOMを提案する。
我々は、ビデオ質問応答やオブジェクトセグメンテーションを参照しながら、VideoInferや他の既存のベンチマークに関する包括的な実験を行う。
- 参考スコア(独自算出の注目度): 43.963739052764595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Language Models (VideoLLMs) have recently demonstrated remarkable progress in general video understanding. However, existing models primarily focus on high-level comprehension and are limited to text-only responses, restricting the flexibility for object-centric, multiround interactions. In this paper, we make three contributions: (i) we address these limitations by introducing a VideoLLM model, capable of performing both object referring for input and grounding for output in video reasoning tasks, i.e., allowing users to interact with videos using both textual and visual prompts; (ii) we propose STOM (Spatial-Temporal Overlay Module), a novel approach that propagates arbitrary visual prompts input at any single timestamp to the remaining frames within a video; (iii) we present VideoInfer, a manually curated object-centric video instruction dataset featuring questionanswering pairs that require reasoning. We conduct comprehensive experiments on VideoInfer and other existing benchmarks across video question answering and referring object segmentation. The results on 12 benchmarks of 6 tasks show that our proposed model consistently outperforms baselines in both video question answering and segmentation, underscoring its robustness in multimodal, object-centric video and image understanding. Project page: https://qirui-chen.github.io/RGA3-release/.
- Abstract(参考訳): ビデオ大言語モデル(VideoLLMs)は近年,一般的なビデオ理解において顕著な進歩を見せている。
しかし、既存のモデルは、主に高レベルの理解に焦点を当て、テキストのみの応答に限定され、オブジェクト中心のマルチラウンドインタラクションの柔軟性を制限する。
本稿では,3つのコントリビューションについて述べる。
i) ビデオ推論タスクにおいて、入力の参照と出力のグラウンド化の両方を実行することが可能なVideoLLMモデルを導入することにより、これらの制限に対処する。
(II)STOM(Spatial-Temporal Overlay Module)は,ビデオ内の残りのフレームに対して,任意の時間スタンプで任意の視覚的プロンプト入力を伝搬する手法である。
(iii) 推論を必要とする質問応答対を特徴とする手作業によるオブジェクト中心のビデオインストラクションデータセットであるVideoInferを提示する。
我々は、ビデオ質問応答やオブジェクトセグメンテーションを参照しながら、VideoInferや他の既存のベンチマークに関する包括的な実験を行う。
6つのタスクの12のベンチマークの結果から,提案手法はビデオ質問応答とセグメンテーションの両方においてベースラインを一貫して上回り,マルチモーダル,オブジェクト中心のビデオおよび画像理解におけるロバスト性を実証している。
プロジェクトページ: https://qirui-chen.github.io/RGA3-release/。
関連論文リスト
- Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models [21.966865098520277]
ビデオ大言語モデル(Video-LLM)は、主にビデオコンテンツから直接生成された質問に基づいて訓練される。
現実世界のシナリオでは、ユーザーはしばしば、ビデオの情報範囲を超えて広がる質問をする。
本稿では,ビデオLLMと,その映像に基づいて質問の関連性を評価するためのフレームワークである応答可能性のアライメントを提案する。
論文 参考訳(メタデータ) (2025-07-07T13:19:43Z) - SAMA: Towards Multi-Turn Referential Grounded Video Chat with Large Language Models [80.3895950009792]
ビデオにおけるきめ細かい時間的理解の獲得は、現在のビデオ大マルチモデル(ビデオLMM)にとって大きな課題である。
私たちは、データセット、モデル、ベンチマークの3つの中核的な側面に貢献しています。
まず,ビデオ理解,グラウンドニング,マルチターンビデオチャットの共用学習を実現するため、15Kビデオからなる大規模データセットであるSAMA-239Kを紹介する。
第2に,広義の時間的コンテキストアグリゲータとセグメンションモデルを組み合わせたSAMAモデルを提案する。
論文 参考訳(メタデータ) (2025-05-24T18:13:16Z) - Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。
提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文 参考訳(メタデータ) (2024-10-10T09:28:36Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。