論文の概要: ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025
- arxiv url: http://arxiv.org/abs/2503.23509v1
- Date: Sun, 30 Mar 2025 16:43:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.157766
- Title: ReferDINO-Plus: 2nd Solution for 4th PVUW MeViS Challenge at CVPR 2025
- Title(参考訳): Referdino-Plus:第2回PVUW MeViS Challenge for 4th PVUW MeViS Challenge at CVPR 2025
- Authors: Tianming Liang, Haichao Jiang, Wei-Shi Zheng, Jian-Fang Hu,
- Abstract要約: Referring Video Object (RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメントすることを目的としている。
ReferDINOは、オブジェクトレベルの視覚言語知識を適用することで、このタスクで有望なパフォーマンスを示した。
本稿では,ReferDINOとSAM2のマスクを適応的に融合させる条件付きマスク融合戦略を提案する。
- 参考スコア(独自算出の注目度): 30.696973354375995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Video Object Segmentation (RVOS) aims to segment target objects throughout a video based on a text description. This task has attracted increasing attention in the field of computer vision due to its promising applications in video editing and human-agent interaction. Recently, ReferDINO has demonstrated promising performance in this task by adapting object-level vision-language knowledge from pretrained foundational image models. In this report, we further enhance its capabilities by incorporating the advantages of SAM2 in mask quality and object consistency. In addition, to effectively balance performance between single-object and multi-object scenarios, we introduce a conditional mask fusion strategy that adaptively fuses the masks from ReferDINO and SAM2. Our solution, termed ReferDINO-Plus, achieves 60.43 \(\mathcal{J}\&\mathcal{F}\) on MeViS test set, securing 2nd place in the MeViS PVUW challenge at CVPR 2025. The code is available at: https://github.com/iSEE-Laboratory/ReferDINO-Plus.
- Abstract(参考訳): Referring Video Object Segmentation (RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメントすることを目的としている。
このタスクは、ビデオ編集や人間とエージェントのインタラクションにおける有望な応用のために、コンピュータビジョンの分野で注目を集めている。
近年、ReferDINOは、事前訓練された基礎画像モデルからオブジェクトレベルの視覚言語知識を適応させることにより、この課題において有望な性能を示した。
本稿では,SAM2の利点をマスクの品質とオブジェクトの一貫性に取り入れることで,その機能をさらに強化する。
さらに,単一対象と多対象のシナリオ間の性能のバランスをとるために,ReferDINOとSAM2のマスクを適応的に融合させる条件付きマスク融合戦略を導入する。
CVPR 2025におけるMeViS PVUWチャレンジでは,MeViSテストセット上で60.43 \(\mathcal{J}\&\mathcal{F}\)を達成した。
コードは、https://github.com/iSEE-Laboratory/ReferDINO-Plusで入手できる。
関連論文リスト
- The 1st Solution for 4th PVUW MeViS Challenge: Unleashing the Potential of Large Multimodal Models for Referring Video Segmentation [31.44879457190659]
本稿では,ビデオセグメンテーションにおけるLMMの可能性を完全に解き放つための,シンプルで効果的な推論最適化手法を提案する。
我々のソリューションはMeViSテストセットで61.98%のJ&Fを達成し、CVPR 2025で第4回PVUWチャレンジMeViSトラックで1位となった。
論文 参考訳(メタデータ) (2025-04-07T15:24:54Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通して対象オブジェクトをセグメンテーションすることを目的としている。
我々は、事前訓練された視覚基盤モデルから強力な視覚言語理解を継承する、エンドツーエンドのRVOSモデルである textbfReferDINO を提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3379755761583]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。
I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。
提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文 参考訳(メタデータ) (2025-01-06T14:49:26Z) - ObjectRelator: Enabling Cross-View Object Relation Understanding in Ego-Centric and Exo-Centric Videos [105.40690994956667]
Ego-Exoオブジェクト対応タスクは、オブジェクトをエゴ中心およびエゴ中心のビューにマップすることを目的としている。
我々は,この課題に対処するための新しい手法であるObjectRelatorを紹介する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - 2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。
本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。
CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文 参考訳(メタデータ) (2024-06-20T02:16:23Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。