論文の概要: DIVE: Deep-search Iterative Video Exploration A Technical Report for the CVRR Challenge at CVPR 2025
- arxiv url: http://arxiv.org/abs/2506.21891v1
- Date: Fri, 27 Jun 2025 04:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.078481
- Title: DIVE: Deep-search Iterative Video Exploration A Technical Report for the CVRR Challenge at CVPR 2025
- Title(参考訳): DIVE: CVPR 2025におけるCVRRチャレンジの技術レポート
- Authors: Umihiro Kamoto, Tatsuya Ishibashi, Noriyuki Kugo,
- Abstract要約: 本稿では,2025年のコンプレックスビデオ推論・ロバストネス評価チャレンジにおいて,第1位を獲得した勝利のソリューションについて述べる。
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)ベンチマークを使用しており、11のカテゴリにまたがる214のユニークなビデオと2400の質問応答ペアで構成されている。
我々の手法であるDIVEは、各入力質問を意味的に分解し、ステップワイズ推論とプログレッシブ推論によって解決する反復推論手法を採用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we present the winning solution that achieved the 1st place in the Complex Video Reasoning & Robustness Evaluation Challenge 2025. This challenge evaluates the ability to generate accurate natural language answers to questions about diverse, real-world video clips. It uses the Complex Video Reasoning and Robustness Evaluation Suite (CVRR-ES) benchmark, which consists of 214 unique videos and 2,400 question-answer pairs spanning 11 categories. Our method, DIVE (Deep-search Iterative Video Exploration), adopts an iterative reasoning approach, in which each input question is semantically decomposed and solved through stepwise reasoning and progressive inference. This enables our system to provide highly accurate and contextually appropriate answers to even the most complex queries. Applied to the CVRR-ES benchmark, our approach achieves 81.44% accuracy on the test set, securing the top position among all participants. This report details our methodology and provides a comprehensive analysis of the experimental results, demonstrating the effectiveness of our iterative reasoning framework in achieving robust video question answering. The code is available at https://github.com/PanasonicConnect/DIVE
- Abstract(参考訳): 本稿では,2025年のコンプレックスビデオ推論・ロバストネス評価チャレンジにおいて,第1位を獲得した勝利のソリューションについて述べる。
この課題は、多様な現実世界のビデオクリップに関する質問に対して、正確な自然言語の回答を生成する能力を評価する。
CVRR-ES(Complex Video Reasoning and Robustness Evaluation Suite)ベンチマークを使用しており、11のカテゴリにまたがる214のユニークなビデオと2400の質問応答ペアで構成されている。
提案手法であるDIVE(Deep-search Iterative Video Exploration)では,段階的推論と段階的推論により,各入力質問を意味的に分解,解決する反復的推論手法を採用している。
これにより,最も複雑なクエリに対しても,精度が高く,文脈的に適切な回答を提供できる。
CVRR-ESベンチマークでは,テストセットの精度が81.44%向上し,全参加者の最高位が確保された。
本報告では,提案手法を詳述し,実験結果を総合的に分析し,ロバストなビデオ質問応答を実現するための反復推論フレームワークの有効性を実証する。
コードはhttps://github.com/PanasonicConnect/DIVEで入手できる。
関連論文リスト
- MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild [164.8093566483583]
本報告では,CVPR 2025と共同で開催されている第4回PVUWチャレンジについて概観する。
課題は、複雑なシーンビデオオブジェクトセグメンテーションに焦点を当てたMOSEと、モーションガイドによる言語ベースのビデオセグメンテーションをターゲットとするMeViSの2つのトラックである。
論文 参考訳(メタデータ) (2025-04-15T16:02:47Z) - AIM 2024 Challenge on Video Super-Resolution Quality Assessment: Methods and Results [76.64868221556145]
本稿では,AIM(Advanceds in Image Manipulation)ワークショップの一環として,ビデオ・スーパーリゾリューション(SR)品質アセスメント(QA)チャレンジについて紹介する。
この課題の課題は、現代の画像とビデオ-SRアルゴリズムを用いて、2xと4xのアップスケールされたビデオのための客観的QA手法を開発することである。
SR QAの目標は、従来のQA手法の適用範囲が限られているという難題が証明された、最先端のSR QAを前進させることであった。
論文 参考訳(メタデータ) (2024-10-05T16:42:23Z) - NTIRE 2024 Challenge on Image Super-Resolution ($\times$4): Methods and Results [126.78130602974319]
画像の超高解像度化に関するNTIRE 2024の課題(4ドル)をレビューする。
この課題は、低解像度(LR)入力から4倍の倍率で対応する高解像度(HR)画像を生成することである。
この挑戦の目的は、最も先進的なSR性能を持つ設計/解決を得ることである。
論文 参考訳(メタデータ) (2024-04-15T13:45:48Z) - Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - ReLER@ZJU-Alibaba Submission to the Ego4D Natural Language Queries
Challenge 2022 [61.81899056005645]
ビデオクリップとテキストクエリが与えられた場合、この課題のゴールは、クエリに対する回答が得られるビデオクリップの時間的モーメントを見つけることである。
本稿では,言語クエリとビデオクリップの相関関係を明らかにするために,マルチスケールのクロスモーダル変換器とビデオフレームレベルのコントラスト損失を提案する。
実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-07-01T12:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。