論文の概要: Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark
- arxiv url: http://arxiv.org/abs/2411.19941v1
- Date: Fri, 29 Nov 2024 18:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:23:06.041037
- Title: Perception Test 2024: Challenge Summary and a Novel Hour-Long VideoQA Benchmark
- Title(参考訳): パーセプションテスト2024:チャレンジ概要と新しい時間長ビデオQAベンチマーク
- Authors: Joseph Heyward, João Carreira, Dima Damen, Andrew Zisserman, Viorica Pătrăucean,
- Abstract要約: 我々は、IEEE/CVF European Conference on Computer Vision (ECCV) 2024と共に半日間のワークショップとして、第2知覚テストチャレンジを組織した。
目標は、最先端のビデオモデルをベンチマークし、昨年からPerception Testベンチマークを使用して進捗を計測することだった。
今年は7つのトラックがあり、低レベルかつ高レベルなタスクをカバーし、ビデオ、オーディオ、テキストのモダリティをカバーした言語と非言語インターフェースを備えていた。
追加のトラックは1時間にわたるビデオ理解をカバーし、新しいビデオQAベンチマーク1h-walk VQAを導入した。
- 参考スコア(独自算出の注目度): 64.16672247204997
- License:
- Abstract: Following the successful 2023 edition, we organised the Second Perception Test challenge as a half-day workshop alongside the IEEE/CVF European Conference on Computer Vision (ECCV) 2024, with the goal of benchmarking state-of-the-art video models and measuring the progress since last year using the Perception Test benchmark. This year, the challenge had seven tracks (up from six last year) and covered low-level and high-level tasks, with language and non-language interfaces, across video, audio, and text modalities; the additional track covered hour-long video understanding and introduced a novel video QA benchmark 1h-walk VQA. Overall, the tasks in the different tracks were: object tracking, point tracking, temporal action localisation, temporal sound localisation, multiple-choice video question-answering, grounded video question-answering, and hour-long video question-answering. We summarise in this report the challenge tasks and results, and introduce in detail the novel hour-long video QA benchmark 1h-walk VQA.
- Abstract(参考訳): 2023年版の成功に続いて、私たちはIEEE/CVF European Conference on Computer Vision (ECCV) 2024と共に半日間のワークショップとしてSecond Perception Testチャレンジを組織しました。
今年は7トラック(昨年6台から上昇)、低レベルかつ高レベルなタスク、ビデオ、オーディオ、テキストのモダリティを含む言語と非言語インターフェース、さらに1時間にわたるビデオ理解をカバーし、新しいビデオQAベンチマーク1h-walk VQAを導入した。
対象追跡,点追跡,時間的行動の定位,時間的音像定位,複数選択のビデオ質問応答,接地されたビデオ質問応答,時間的ビデオ質問応答であった。
本稿では,課題タスクと結果について要約し,新しい時間長ビデオQAベンチマーク1h-walk VQAについて詳しく紹介する。
関連論文リスト
- HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [52.696422425058245]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - AIM 2024 Challenge on Video Super-Resolution Quality Assessment: Methods and Results [76.64868221556145]
本稿では,AIM(Advanceds in Image Manipulation)ワークショップの一環として,ビデオ・スーパーリゾリューション(SR)品質アセスメント(QA)チャレンジについて紹介する。
この課題の課題は、現代の画像とビデオ-SRアルゴリズムを用いて、2xと4xのアップスケールされたビデオのための客観的QA手法を開発することである。
SR QAの目標は、従来のQA手法の適用範囲が限られているという難題が証明された、最先端のSR QAを前進させることであった。
論文 参考訳(メタデータ) (2024-10-05T16:42:23Z) - Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting [15.161997580529075]
本稿では,連続学習フレームワークにおけるビデオQAの新たな課題について考察する。
我々は,特定の質問制約の促進,知識獲得の促進,視覚的時間的認識の促進を統合した協調的プロンプト(ColPro)を提案する。
NExT-QAデータセットとDramaQAデータセットの実験的結果は、ColProが既存のアプローチよりも優れたパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2024-10-01T15:07:07Z) - AIM 2024 Challenge on Video Saliency Prediction: Methods and Results [105.09572982350532]
本稿では,AIM 2024におけるビデオ・サリエンシ予測の課題について概説する。
参加者の目標は、提供されたビデオシーケンスのセットに対して正確な精度マップを予測する方法を開発することであった。
論文 参考訳(メタデータ) (2024-09-23T08:59:22Z) - First Place Solution to the Multiple-choice Video QA Track of The Second Perception Test Challenge [4.075139470537149]
The Second Perception Test Challenge(第2回知覚テストチャレンジ)のマルチチョイスビデオ質問回答トラックへの第1位ソリューションを提示する。
このコンペティションは複雑なビデオ理解の課題を提起し、ビデオコンテンツに関する質問を正確に理解し答えるモデルを必要とした。
論文 参考訳(メタデータ) (2024-09-20T14:31:13Z) - NTIRE 2024 Challenge on Short-form UGC Video Quality Assessment: Methods and Results [216.73187673659675]
NTIRE 2024 Challenge on Shortform Video Quality Assessment (S-UGC VQA) をレビューする。
KVQデータベースはトレーニング用2926本、検証用420本、テスト用854本を含む3つのパートに分けられる。
目的は、新しいベンチマークを構築し、S-UGC VQAの開発を進めることである。
論文 参考訳(メタデータ) (2024-04-17T12:26:13Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。