論文の概要: Pinpointing Trigger Moment for Grounded Video QA: Enhancing Spatio-temporal Grounding in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.02182v1
- Date: Tue, 04 Nov 2025 01:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.773088
- Title: Pinpointing Trigger Moment for Grounded Video QA: Enhancing Spatio-temporal Grounding in Multimodal Large Language Models
- Title(参考訳): グラウンドドビデオQAのためのピンポイントトリガーモーメント:マルチモーダル大言語モデルにおける時空間グラウンドの強化
- Authors: Jinhwan Seo, Yoonki Cho, Junhyug Noh, Sung-eui Yoon,
- Abstract要約: ICCV 2025知覚テストチャレンジにおけるGVQAタスクに対処するためのフレームワークを提案する。
GVQAタスクは、ビデオコンテンツを複雑に推論し、結果の答えを視覚的にグラウンド化し、参照対象を時間的に追跡できる堅牢なマルチモーダルモデルを要求する。
HOTAスコア0.4968を達成し、GVQAタスクにおける前年の0.2704よりも大幅に改善した。
- 参考スコア(独自算出の注目度): 18.905799883895757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we introduce a framework to address Grounded Video Question Answering (GVQA) task for the ICCV 2025 Perception Test Challenge. The GVQA task demands robust multimodal models capable of complex reasoning over video content, grounding the resulting answers visually, and tracking the referenced objects temporally. To achieve this capability, our proposed approach decomposes the GVQA task into a three-stage pipeline: (1) Video Reasoning \& QA, (2) Spatio-temporal Grounding and (3) Tracking. Our key contribution is the introduction of a trigger moment, derived from our proposed CORTEX prompt, which pinpoints the single most visible frame of a target object to serve as a robust anchor for grounding and tracking. To this end, we achieve the HOTA score of 0.4968, which marks a significant improvement over the previous year's winning score of 0.2704 on GVQA task.
- Abstract(参考訳): 本稿では,ICCV 2025知覚テストチャレンジにおけるGVQAタスクに対処する枠組みを紹介する。
GVQAタスクは、ビデオコンテンツを複雑に推論し、結果の答えを視覚的にグラウンド化し、参照対象を時間的に追跡できる堅牢なマルチモーダルモデルを要求する。
提案手法は,GVQAタスクを3段階のパイプラインに分解する。
我々の重要な貢献は、提案したCORTEXプロンプトから引き起こされたトリガーモーメントの導入である。
この結果, HOTAスコア0.4968を達成し, GVQAタスクにおける前年の0.2704よりも大幅に向上した。
関連論文リスト
- Perception Test 2025: Challenge Summary and a Unified VQA Extension [56.23039846339896]
第3の知覚テストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2025と共に、フルデイワークショップとして組織された。
第一の目的は、最先端のビデオモデルをベンチマークし、マルチモーダル知覚の進捗を測定することである。
主要なパーセプションテストの課題の結果を要約し、既存のタスクとベンチマークへの新たな追加の両方を詳述する。
論文 参考訳(メタデータ) (2026-01-09T20:02:21Z) - STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes [5.685235562999083]
STRIDE-QAは、都市運転における時間的推論のための視覚的質問応答データセットとして最大である。
空間的局所化と時間的予測を通じて、オブジェクト中心とエゴ中心の推論の両方をサポートする。
我々のベンチマークでは、既存のVLM(Vision-Language Models)が予測一貫性のほぼゼロのスコアを得るのに苦労していることが示されている。
論文 参考訳(メタデータ) (2025-08-14T07:57:06Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - TUMTraffic-VideoQA: A Benchmark for Unified Spatio-Temporal Video Understanding in Traffic Scenes [26.948071735495237]
複雑なトラフィックシナリオを理解するために設計されたデータセットとベンチマークであるTUMTraffic-VideoQAを提案する。
データセットには85,000対の複数選択ペア、2,300のオブジェクトキャプション、5,700のオブジェクトアノテーションが含まれており、悪天候や交通異常などのさまざまな現実世界の状況を含んでいる。
論文 参考訳(メタデータ) (2025-02-04T16:14:40Z) - Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark [64.16672247204997]
我々は、IEEE/CVF European Conference on Computer Vision (ECCV) 2024と共に半日間のワークショップとして、第2知覚テストチャレンジを組織した。
目標は、最先端のビデオモデルをベンチマークし、昨年からPerception Testベンチマークを使用して進捗を計測することだった。
今年は7つのトラックがあり、低レベルかつ高レベルなタスクをカバーし、ビデオ、オーディオ、テキストのモダリティをカバーした言語と非言語インターフェースを備えていた。
追加のトラックは1時間にわたるビデオ理解をカバーし、新しいビデオQAベンチマーク1h-walk VQAを導入した。
論文 参考訳(メタデータ) (2024-11-29T18:57:25Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Video Moment Retrieval via Natural Language Queries [7.611718124254329]
本稿では,映像モーメント検索(VMR)のための新しい手法を提案する。
私たちのモデルはシンプルなアーキテクチャで、維持しながらより高速なトレーニングと推論を可能にします。
論文 参考訳(メタデータ) (2020-09-04T22:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。