論文の概要: Enhancing Sa2VA for Referent Video Object Segmentation: 2nd Solution for 7th LSVOS RVOS Track
- arxiv url: http://arxiv.org/abs/2509.15546v1
- Date: Fri, 19 Sep 2025 03:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.969415
- Title: Enhancing Sa2VA for Referent Video Object Segmentation: 2nd Solution for 7th LSVOS RVOS Track
- Title(参考訳): 参照ビデオオブジェクトセグメンテーションのためのSa2VAの強化:第2回LSVOS RVOSトラックの解法
- Authors: Ran Hong, Feng Lu, Leilei Cao, An Yan, Youhai Jiang, Fengjie Zhu,
- Abstract要約: Referential Video Object (RVOS) は、ある自然言語記述にマッチしたビデオ内のすべてのオブジェクトをセグメント化することを目的としている。
RVOS タスクにおける Sa2VA の性能を大幅に向上させる,トレーニング不要なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.068687286561177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referential Video Object Segmentation (RVOS) aims to segment all objects in a video that match a given natural language description, bridging the gap between vision and language understanding. Recent work, such as Sa2VA, combines Large Language Models (LLMs) with SAM~2, leveraging the strong video reasoning capability of LLMs to guide video segmentation. In this work, we present a training-free framework that substantially improves Sa2VA's performance on the RVOS task. Our method introduces two key components: (1) a Video-Language Checker that explicitly verifies whether the subject and action described in the query actually appear in the video, thereby reducing false positives; and (2) a Key-Frame Sampler that adaptively selects informative frames to better capture both early object appearances and long-range temporal context. Without any additional training, our approach achieves a J&F score of 64.14% on the MeViS test set, ranking 2nd place in the RVOS track of the 7th LSVOS Challenge at ICCV 2025.
- Abstract(参考訳): Referential Video Object Segmentation (RVOS) は、視覚と言語理解のギャップを埋め、与えられた自然言語記述にマッチするビデオ内のすべてのオブジェクトをセグメント化することを目的としている。
Sa2VAのような最近の研究はLarge Language Models (LLMs) とSAM~2を組み合わせたもので、ビデオセグメンテーションを導くためにLLMの強力なビデオ推論能力を活用している。
本研究では, RVOS タスクにおける Sa2VA の性能を大幅に向上させる, トレーニング不要なフレームワークを提案する。
提案手法では,(1)クエリに記述された対象と動作が実際にビデオに現れるかどうかを明確に検証し,偽陽性を低減させるビデオランゲージチェッカー,(2)情報フレームを適応的に選択し,初期オブジェクトの外観と長距離時間の両方をよりよくキャプチャするキーフレームサンプリングという2つの重要なコンポーネントを紹介する。
ICCV 2025で第7回LSVOSチャレンジのRVOSトラックで2位にランクインし、MeViSテストセットで64.14%のJ&Fスコアを得た。
関連論文リスト
- 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3379755761583]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - 2nd Place Solution for MeViS Track in CVPR 2024 PVUW Workshop: Motion Expression guided Video Segmentation [8.20168024462357]
Motion Expression Guided Videoは、モーション記述付き自然言語表現に基づくビデオ内のオブジェクトのセグメンテーションを目的とした、挑戦的なタスクである。
本稿では、時間的拡張のための予備情報としてビデオインスタンス分割モデルから得られたマスク情報を紹介し、空間的洗練のためにSAMを用いる。
CVPR 2024 PVUW Challengeでは,試験段階では49.92 J &F,試験段階では54.20 J &F,MeViS Trackでは2位となった。
論文 参考訳(メタデータ) (2024-06-20T02:16:23Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。