論文の概要: The 1st Winner for 5th PVUW MeViS-Text Challenge: Strong MLLMs Meet SAM3 for Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2604.00404v1
- Date: Wed, 01 Apr 2026 02:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.805851
- Title: The 1st Winner for 5th PVUW MeViS-Text Challenge: Strong MLLMs Meet SAM3 for Referring Video Object Segmentation
- Title(参考訳): 第5回PVUW MeViS-Textチャレンジの第1回優勝者: 強力なMLLMがビデオオブジェクトセグメンテーションの参照のためにSAM3と出会う
- Authors: Xusheng He, Canyang Wu, Jinrong Zhang, Weili Guan, Jianlong Wu, Liqiang Nie,
- Abstract要約: 本報告では,第5回PVUW MeViS-Text Challengeの優勝ソリューションについて述べる。
私たちは、強力なマルチモーダルな大規模言語モデルとSAM3を組み合わせた、完全にトレーニング不要なパイプラインを構築しています。
我々の手法はPVUW 2026 MeViS-Textテストセットで第1位であり、最終スコアは0.909064、J&Fスコアは0.7897026である。
- 参考スコア(独自算出の注目度): 65.24213788883016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents our winning solution to the 5th PVUW MeViS-Text Challenge. The track studies referring video object segmentation under motion-centric language expressions, where the model must jointly understand appearance, temporal behavior, and object interactions. To address this problem, we build a fully training-free pipeline that combines strong multimodal large language models with SAM3. Our method contains three stages. First, Gemini-3.1 Pro decomposes each target event into instance-level grounding targets, selects the frame where the target is most clearly visible, and generates a discriminative description. Second, SAM3-agent produces a precise seed mask on the selected frame, and the official SAM3 tracker propagates the mask through the whole video. Third, a refinement stage uses Qwen3.5-Plus and behavior-level verification to correct ambiguous or semantically inconsistent predictions. Without task-specific fine-tuning, our method ranks first on the PVUW 2026 MeViS-Text test set, achieving a Final score of 0.909064 and a J&F score of 0.7897. The code is available at https://github.com/Moujuruo/MeViSv2_Track_Solution_2026.
- Abstract(参考訳): 本報告では,第5回PVUW MeViS-Text Challengeの優勝ソリューションについて述べる。
動き中心の言語表現下での映像オブジェクトのセグメンテーション(英語版)を参照するトラック研究では、モデルが外見、時間的行動、オブジェクトの相互作用を共同で理解する必要がある。
この問題に対処するために,強力なマルチモーダルな大規模言語モデルとSAM3を組み合わせた,完全にトレーニング不要なパイプラインを構築した。
我々の方法には3つの段階がある。
まず、Gemini-3.1 Proは、各ターゲットイベントをインスタンスレベルの接地ターゲットに分解し、ターゲットが最もはっきりと見えるフレームを選択し、識別的な記述を生成する。
第二に、SAM3-agentは選択したフレームに正確なシードマスクを生成し、公式のSAM3トラッカーは全ビデオを通してマスクを伝搬する。
第3に、改良段階はQwen3.5-Plusと行動レベルの検証を使用して曖昧または意味的に矛盾した予測を補正する。
タスク固有の微調整がなければ、PVUW 2026 MeViS-Textテストセットにランクインし、最終スコアが0.909064、J&Fスコアが0.7897となる。
コードはhttps://github.com/Moujuruo/MeViSv2_Track_Solution_2026で公開されている。
関連論文リスト
- Advancing Complex Video Object Segmentation via Tracking-Enhanced Prompt: The 1st Winner for 5th PVUW MOSE Challenge [65.24213788883016]
Complex Video Objectタスクでは、研究者は、散らかった環境の中で特定のターゲットを追跡し、セグメンテーションする必要がある。
この制限の根本原因は、SAM3がこれらの特定の標的種の理解が不十分であることにある。
我々はTEPを提案する: 追跡強化プロンプトによる複雑なビデオオブジェクトの改善。
論文 参考訳(メタデータ) (2026-04-01T02:23:23Z) - Evaluating SAM2 for Video Semantic Segmentation [60.157605818225186]
Anything Model 2 (SAM2)は、画像とビデオの両方において、迅速な視覚オブジェクトのセグメンテーションのための強力な基盤モデルであることが証明されている。
本稿では, SAM2 から高密度ビデオセマンティック (VSS) への拡張について検討する。
我々の実験は、SAM2を利用することでVSSの全体的な性能が向上することを示唆している。
論文 参考訳(メタデータ) (2025-12-01T15:15:16Z) - SimToken: A Simple Baseline for Referring Audio-Visual Segmentation [29.88252418748085]
Referring Audio-Visual (Ref-AVS) は、自然言語表現に基づいて、特定のオブジェクトをビデオに分割することを目的としている。
このタスクは、クロスモーダル推論ときめ細かいオブジェクトローカライゼーションにおいて重要な課題を提起する。
我々はSegment Anything Model(SAM)とMLLM(Multimodal large language model)を統合したSimTokenというフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:55:04Z) - GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - Decoupled Seg Tokens Make Stronger Reasoning Video Segmenter and Grounder [5.57393627015653]
Sa2VAで実証されたビデオセグメンタとグライダーアプローチは、セグメンテーションモデル内で機能を直接フューズする。
これはしばしば、動的視覚情報と静的意味論の好ましくない絡み合いが生じ、セグメント化の精度が低下する。
SAM-2に固有の情報処理制限に対処するため,テキスト事前学習と線形デカップリングモジュールを統合したデカップリング強化プロンプト方式であるDeSa2VAを提案する。
論文 参考訳(メタデータ) (2025-06-28T13:30:36Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - 1st Place Solution for 5th LSVOS Challenge: Referring Video Object
Segmentation [65.45702890457046]
主要なRVOSモデルの強みを統合して、効果的なパラダイムを構築します。
マスクの整合性と品質を改善するために,2段階のマルチモデル融合戦略を提案する。
第5回大規模ビデオオブジェクトチャレンジ(ICCV 2023)トラック3位にランクインしたRef-Youtube-VOS検証セットで75.7%,テストセットで70%のJ&Fを達成した。
論文 参考訳(メタデータ) (2024-01-01T04:24:48Z) - Fully Transformer-Equipped Architecture for End-to-End Referring Video
Object Segmentation [24.814534011440877]
本稿では,RVOSタスクをマスクシーケンス学習問題として扱うエンドツーエンドのRVOSフレームワークを提案する。
オブジェクトレベルの空間コンテキストをキャプチャするために,Stacked Transformerを開発した。
このモデルは、マスクシーケンスとテキストクエリの最適なマッチングを見つける。
論文 参考訳(メタデータ) (2023-09-21T09:47:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。