論文の概要: Pinpointing Trigger Moment for Grounded Video QA: Enhancing Spatio-temporal Grounding in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.02182v1
- Date: Tue, 04 Nov 2025 01:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.773088
- Title: Pinpointing Trigger Moment for Grounded Video QA: Enhancing Spatio-temporal Grounding in Multimodal Large Language Models
- Title(参考訳): グラウンドドビデオQAのためのピンポイントトリガーモーメント:マルチモーダル大言語モデルにおける時空間グラウンドの強化
- Authors: Jinhwan Seo, Yoonki Cho, Junhyug Noh, Sung-eui Yoon,
- Abstract要約: ICCV 2025知覚テストチャレンジにおけるGVQAタスクに対処するためのフレームワークを提案する。
GVQAタスクは、ビデオコンテンツを複雑に推論し、結果の答えを視覚的にグラウンド化し、参照対象を時間的に追跡できる堅牢なマルチモーダルモデルを要求する。
HOTAスコア0.4968を達成し、GVQAタスクにおける前年の0.2704よりも大幅に改善した。
- 参考スコア(独自算出の注目度): 18.905799883895757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this technical report, we introduce a framework to address Grounded Video Question Answering (GVQA) task for the ICCV 2025 Perception Test Challenge. The GVQA task demands robust multimodal models capable of complex reasoning over video content, grounding the resulting answers visually, and tracking the referenced objects temporally. To achieve this capability, our proposed approach decomposes the GVQA task into a three-stage pipeline: (1) Video Reasoning \& QA, (2) Spatio-temporal Grounding and (3) Tracking. Our key contribution is the introduction of a trigger moment, derived from our proposed CORTEX prompt, which pinpoints the single most visible frame of a target object to serve as a robust anchor for grounding and tracking. To this end, we achieve the HOTA score of 0.4968, which marks a significant improvement over the previous year's winning score of 0.2704 on GVQA task.
- Abstract(参考訳): 本稿では,ICCV 2025知覚テストチャレンジにおけるGVQAタスクに対処する枠組みを紹介する。
GVQAタスクは、ビデオコンテンツを複雑に推論し、結果の答えを視覚的にグラウンド化し、参照対象を時間的に追跡できる堅牢なマルチモーダルモデルを要求する。
提案手法は,GVQAタスクを3段階のパイプラインに分解する。
我々の重要な貢献は、提案したCORTEXプロンプトから引き起こされたトリガーモーメントの導入である。
この結果, HOTAスコア0.4968を達成し, GVQAタスクにおける前年の0.2704よりも大幅に向上した。
関連論文リスト
- STRIDE-QA: Visual Question Answering Dataset for Spatiotemporal Reasoning in Urban Driving Scenes [5.685235562999083]
STRIDE-QAは、都市運転における時間的推論のための視覚的質問応答データセットとして最大である。
空間的局所化と時間的予測を通じて、オブジェクト中心とエゴ中心の推論の両方をサポートする。
我々のベンチマークでは、既存のVLM(Vision-Language Models)が予測一貫性のほぼゼロのスコアを得るのに苦労していることが示されている。
論文 参考訳(メタデータ) (2025-08-14T07:57:06Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - TUMTraffic-VideoQA: A Benchmark for Unified Spatio-Temporal Video Understanding in Traffic Scenes [26.948071735495237]
複雑なトラフィックシナリオを理解するために設計されたデータセットとベンチマークであるTUMTraffic-VideoQAを提案する。
データセットには85,000対の複数選択ペア、2,300のオブジェクトキャプション、5,700のオブジェクトアノテーションが含まれており、悪天候や交通異常などのさまざまな現実世界の状況を含んでいる。
論文 参考訳(メタデータ) (2025-02-04T16:14:40Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。