論文の概要: SaSaSaSa2VA: 2nd Place of the 5th PVUW MeViS-Text Track
- arxiv url: http://arxiv.org/abs/2603.27241v1
- Date: Sat, 28 Mar 2026 11:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.862279
- Title: SaSaSaSa2VA: 2nd Place of the 5th PVUW MeViS-Text Track
- Title(参考訳): SaSaSaSa2VA:第5回PVUW MeViS-Textトラックの2位
- Authors: Dengxian Gong, Quanzhu Niu, Shihao Chen, Yuanzheng Wu, Yikang Zhou, Tao Zhang, Haobo Yuan, Lu Qi, Shunping Ji,
- Abstract要約: MeViSベンチマークは、動き中心の式を導入し、ターゲットのないクエリを導入することでこれを拡張している。
我々は、シンプルで効果的な存在認識認証機構を採用し、Sur Awesome SaSaSa2VA (SaSaSa2VA) に繋がる。
その単純さにもかかわらず、第5回PVUWチャレンジ(MeViS-Text Track)の最終スコアは89.19である。
- 参考スコア(独自算出の注目度): 30.33008093410309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) commonly grounds targets in videos based on static textual cues. MeViS benchmark extends this by incorporating motion-centric expressions (referring & reasoning motion expressions) and introducing no-target queries. Extending SaSaSa2VA, where increased input frames and [SEG] tokens already strengthen the Sa2VA backbone, we adopt a simple yet effective target existence-aware verification mechanism, leading to Still Awesome SaSaSa2VA (SaSaSaSa2VA). Despite its simplicity, the method achieves a final score of 89.19 in the 5th PVUW Challenge (MeViS-Text Track), securing 2nd place. Both quantitative results and ablations suggest that this existence-aware verification strategy is sufficient to unlock strong performance on motion-centric referring tasks.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、静的テキストキューに基づいて、通常、ビデオのターゲットをグラウンドする。
MeViSベンチマークは、動き中心の表現(参照と推論の動作表現)を導入し、ターゲットのないクエリを導入することでこれを拡張している。
入力フレームの増大と[SEG]トークンがすでにSa2VAのバックボーンを強化しているSaSaSa2VAを拡張して,Sty Awesome SaSa2VA(SaSaSa2VA)を実現する。
その単純さにもかかわらず、この方法は第5回PVUWチャレンジ(MeViS-Text Track)で89.19点を獲得し、2位を確保した。
定量的な結果と改善は、この存在を意識した検証戦略が、動き中心の参照タスクにおける強いパフォーマンスを解放するのに十分であることを示している。
関連論文リスト
- Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - 3rd Place Report of LSVOS 2025 MeViS Track: Sa2VA-i: Improving Sa2VA Results with Consistent Training and Inference [59.989927043461364]
また,Sa2VAは,映像オブジェクトのセグメンテーションタスクの完全な参照能力に応じて動作しないことがわかった。
そこで我々は,Sa2VAの改良版Sa2VA-iを提案する。
我々の修正により、Sa2VA-i-1Bモデルは、MeViSベンチマークのオリジナルのSa2VA-26Bモデルと同等に動作します。
論文 参考訳(メタデータ) (2025-09-23T14:38:25Z) - The 1st Solution for 7th LSVOS RVOS Track: SaSaSa2VA [57.26038712231443]
ビデオオブジェクトのセグメンテーション(RVOS)を参照するには、自然言語で表現されたビデオ内のオブジェクトのセグメンテーションと追跡が必要である。
これらの問題に対処するために、Augmented and Selective Averaged Sa2VA (SaSa2VA)を提案する。
SaSa2VA は mathcalJ&F$ 67.45 を獲得し、ランキング1位で2.80ポイントを突破した。
論文 参考訳(メタデータ) (2025-09-21T08:08:17Z) - Enhancing Sa2VA for Referent Video Object Segmentation: 2nd Solution for 7th LSVOS RVOS Track [11.068687286561177]
Referential Video Object (RVOS) は、ある自然言語記述にマッチしたビデオ内のすべてのオブジェクトをセグメント化することを目的としている。
RVOS タスクにおける Sa2VA の性能を大幅に向上させる,トレーニング不要なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-19T03:01:27Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。