論文の概要: Report of the 5th PVUW Challenge: Towards More Diverse Modalities in Pixel-Level Understanding
- arxiv url: http://arxiv.org/abs/2604.26031v1
- Date: Tue, 28 Apr 2026 18:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.139033
- Title: Report of the 5th PVUW Challenge: Towards More Diverse Modalities in Pixel-Level Understanding
- Title(参考訳): 第5回PVUWチャレンジ報告
- Authors: Chang Liu, Henghui Ding, Nikhila Ravi, Yunchao Wei, Shuting He, Song Bai, Philip Torr, Leilei Cao, Jinrong Zhang, Deshui Miao, Xusheng He, Dengxian Gong, Zhiyu Wang, Mingqi Gao, Jihwan Hong, Canyang Wu, Weili Guan, Jianlong Wu, Liqiang Nie, Xingsen Huang, Yameng Gu, Xiaogang Yu, Xin Li, Ming-Hsuan Yang, Sijie Li, Jungong Han, Quanzhu Niu, Shihao Chen, Yuanzheng Wu, Yikang Zhou, Tao Zhang, Haobo Yuan, Lu Qi, Shunping Ji, Chao Yang, Chao Tian, Guoqing Zhu, Kai Yang, Zhifan Mo, Haijun Zhang, Xudong Kang, Shutao Li, Jaeyoung Do,
- Abstract要約: 本報告では、2026年のPVUWチャレンジの目的、データセット、および最高パフォーマンスの方法論を要約する。
2026年版では、密集した乱雑なシナリオの中でオブジェクトを追跡するMOSEトラック、動きに焦点を絞った言語表現でターゲットをローカライズするMeViS-Textトラック、音響駆動型オブジェクトセグメンテーションの先駆者であるMeViS-Audioトラックの3つの特別なトラックがある。
- 参考スコア(独自算出の注目度): 202.7892709083317
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This report summarizes the objectives, datasets, and top-performing methodologies of the 2026 Pixel-level Video Understanding in the Wild (PVUW) Challenge, hosted at CVPR 2026, which evaluates state-of-the-art models under highly unconstrained conditions. To provide a comprehensive assessment, the 2026 edition features three specialized tracks: the MOSE track for tracking objects within densely cluttered and severely occluded scenarios; the MeViS-Text track for localizing targets via motion-focused linguistic expressions; and the newly inaugurated MeViS-Audio track, which pioneers acoustic-driven object segmentation. By introducing previously unreleased challenging data and analyzing the cutting-edge, multimodal solutions submitted by participants, this report highlights the community's latest technical advancements and charts promising future directions for robust video scene comprehension.
- Abstract(参考訳): 本報告では,CVPR 2026で開催されている2026 Pixel-level Video Understanding in the Wild (PVUW) Challengeの目的,データセット,およびトップパフォーマンスの方法論について要約する。
包括的評価のため、2026年版では、密集した乱雑なシナリオ内でオブジェクトを追跡するMOSEトラック、動きに焦点を絞った言語表現を介してターゲットをローカライズするMeViS-Textトラック、音響駆動型オブジェクトセグメンテーションを開拓するMeViS-Audioトラックの3つの特別なトラックが提供されている。
未発表の課題データを導入し、参加者が提出した最先端のマルチモーダルソリューションを分析することで、コミュニティの最新技術進歩と、堅牢なビデオシーン理解のための今後の方向性を約束するチャートを明らかにする。
関連論文リスト
- Advancing Complex Video Object Segmentation via Tracking-Enhanced Prompt: The 1st Winner for 5th PVUW MOSE Challenge [65.24213788883016]
Complex Video Objectタスクでは、研究者は、散らかった環境の中で特定のターゲットを追跡し、セグメンテーションする必要がある。
この制限の根本原因は、SAM3がこれらの特定の標的種の理解が不十分であることにある。
我々はTEPを提案する: 追跡強化プロンプトによる複雑なビデオオブジェクトの改善。
論文 参考訳(メタデータ) (2026-04-01T02:23:23Z) - PVUW 2025 Challenge Report: Advances in Pixel-level Understanding of Complex Videos in the Wild [164.8093566483583]
本報告では,CVPR 2025と共同で開催されている第4回PVUWチャレンジについて概観する。
課題は、複雑なシーンビデオオブジェクトセグメンテーションに焦点を当てたMOSEと、モーションガイドによる言語ベースのビデオセグメンテーションをターゲットとするMeViSの2つのトラックである。
論文 参考訳(メタデータ) (2025-04-15T16:02:47Z) - Perception Test 2023: A Summary of the First Challenge And Outcome [67.0525378209708]
最初のパーセプションテストは、IEEE/CVF International Conference on Computer Vision (ICCV) 2023と共に半日間のワークショップとして開催された。
目標は、最近提案されたPerception Testベンチマークで最先端のビデオモデルをベンチマークすることであった。
このレポートでは、タスク記述、メトリクス、ベースライン、結果について要約しています。
論文 参考訳(メタデータ) (2023-12-20T15:12:27Z) - The Robust Semantic Segmentation UNCV2023 Challenge Results [99.97867942388486]
本稿では,ICCV 2023で実施されたMUAD不確実性定量化問題に対処するために用いられる勝利解について概説する。
この課題は、都市環境におけるセマンティックセグメンテーションを中心に、特に自然の敵対的なシナリオに焦点を当てた。
本報告では, 最先端の不確実性定量化手法からインスピレーションを得た19件の論文を提示する。
論文 参考訳(メタデータ) (2023-09-27T08:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。