論文の概要: Perception Test 2025: Challenge Summary and a Unified VQA Extension
- arxiv url: http://arxiv.org/abs/2601.06287v1
- Date: Fri, 09 Jan 2026 20:02:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.731902
- Title: Perception Test 2025: Challenge Summary and a Unified VQA Extension
- Title(参考訳): パーセプションテスト2025:チャレンジ概要と統一VQA拡張
- Authors: Joseph Heyward, Nikhil Pathasarathy, Tyler Zhu, Aravindh Mahendran, João Carreira, Dima Damen, Andrew Zisserman, Viorica Pătrăucean,
- Abstract要約: 第3の知覚テストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2025と共に、フルデイワークショップとして組織された。
第一の目的は、最先端のビデオモデルをベンチマークし、マルチモーダル知覚の進捗を測定することである。
主要なパーセプションテストの課題の結果を要約し、既存のタスクとベンチマークへの新たな追加の両方を詳述する。
- 参考スコア(独自算出の注目度): 56.23039846339896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Third Perception Test challenge was organised as a full-day workshop alongside the IEEE/CVF International Conference on Computer Vision (ICCV) 2025. Its primary goal is to benchmark state-of-the-art video models and measure the progress in multimodal perception. This year, the workshop featured 2 guest tracks as well: KiVA (an image understanding challenge) and Physic-IQ (a video generation challenge). In this report, we summarise the results from the main Perception Test challenge, detailing both the existing tasks as well as novel additions to the benchmark. In this iteration, we placed an emphasis on task unification, as this poses a more challenging test for current SOTA multimodal models. The challenge included five consolidated tracks: unified video QA, unified object and point tracking, unified action and sound localisation, grounded video QA, and hour-long video QA, alongside an analysis and interpretability track that is still open for submissions. Notably, the unified video QA track introduced a novel subset that reformulates traditional perception tasks (such as point tracking and temporal action localisation) as multiple-choice video QA questions that video-language models can natively tackle. The unified object and point tracking merged the original object tracking and point tracking tasks, whereas the unified action and sound localisation merged the original temporal action localisation and temporal sound localisation tracks. Accordingly, we required competitors to use unified approaches rather than engineered pipelines with task-specific models. By proposing such a unified challenge, Perception Test 2025 highlights the significant difficulties existing models face when tackling diverse perception tasks through unified interfaces.
- Abstract(参考訳): 第3回知覚テストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2025と共に、フルデイワークショップとして組織された。
第一の目的は、最先端のビデオモデルをベンチマークし、マルチモーダル知覚の進捗を測定することである。
今年のワークショップには2つのゲストトラックがあり、KiVA(イメージ理解チャレンジ)とPhysic-IQ(ビデオ生成チャレンジ)がある。
本稿では,主要な知覚テスト課題の結果を要約し,既存のタスクとベンチマークの新たな追加について詳述する。
このイテレーションでは、現在のSOTAマルチモーダルモデルに対して、より難しいテストを行うため、タスク統一に重点を置いています。
この課題には、統合されたビデオQA、統合されたオブジェクトとポイントの追跡、統一されたアクションとサウンドのローカライゼーション、接地されたビデオQA、時間長のビデオQAの5つの統合トラックと、まだ提出のための分析と解釈可能なトラックが含まれていた。
特に、統合されたビデオQAトラックは、ビデオ言語モデルがネイティブに取り組めるようなマルチチョイスビデオQA質問として、従来の知覚タスク(ポイントトラッキングや時間的アクションローカライゼーションなど)を再構成する新しいサブセットを導入した。
統合されたオブジェクトとポイントトラッキングは、元のオブジェクトトラッキングとポイントトラッキングタスクを、統一されたアクションとサウンドローカライゼーションは、当初の時間的アクションローカライゼーションと時間的サウンドローカライゼーショントラックを統合した。
そのため、私たちは、タスク固有のモデルを備えたパイプラインを設計するのではなく、統一的なアプローチを使うように競争相手に要求しました。
このような統一的な課題を提案することで、パーセプションテスト2025は、統一インターフェースを通じて多様な知覚タスクに取り組む際に、既存のモデルが直面する重大な困難を強調します。
関連論文リスト
- Pinpointing Trigger Moment for Grounded Video QA: Enhancing Spatio-temporal Grounding in Multimodal Large Language Models [18.905799883895757]
ICCV 2025知覚テストチャレンジにおけるGVQAタスクに対処するためのフレームワークを提案する。
GVQAタスクは、ビデオコンテンツを複雑に推論し、結果の答えを視覚的にグラウンド化し、参照対象を時間的に追跡できる堅牢なマルチモーダルモデルを要求する。
HOTAスコア0.4968を達成し、GVQAタスクにおける前年の0.2704よりも大幅に改善した。
論文 参考訳(メタデータ) (2025-11-04T01:50:19Z) - Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark [64.16672247204997]
我々は、IEEE/CVF European Conference on Computer Vision (ECCV) 2024と共に半日間のワークショップとして、第2知覚テストチャレンジを組織した。
目標は、最先端のビデオモデルをベンチマークし、昨年からPerception Testベンチマークを使用して進捗を計測することだった。
今年は7つのトラックがあり、低レベルかつ高レベルなタスクをカバーし、ビデオ、オーディオ、テキストのモダリティをカバーした言語と非言語インターフェースを備えていた。
追加のトラックは1時間にわたるビデオ理解をカバーし、新しいビデオQAベンチマーク1h-walk VQAを導入した。
論文 参考訳(メタデータ) (2024-11-29T18:57:25Z) - Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting [15.161997580529075]
本稿では,連続学習フレームワークにおけるビデオQAの新たな課題について考察する。
我々は,特定の質問制約の促進,知識獲得の促進,視覚的時間的認識の促進を統合した協調的プロンプト(ColPro)を提案する。
NExT-QAデータセットとDramaQAデータセットの実験的結果は、ColProが既存のアプローチよりも優れたパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-10-01T15:07:07Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。