論文の概要: 3rd Place Report of LSVOS 2025 MeViS Track: Sa2VA-i: Improving Sa2VA Results with Consistent Training and Inference
- arxiv url: http://arxiv.org/abs/2509.19082v1
- Date: Tue, 23 Sep 2025 14:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.897108
- Title: 3rd Place Report of LSVOS 2025 MeViS Track: Sa2VA-i: Improving Sa2VA Results with Consistent Training and Inference
- Title(参考訳): LSVOS 2025 MeViS Track: Sa2VA-i: 一貫性トレーニングと推論によるSa2VA結果の改善
- Authors: Alexey Nekrasov, Ali Athar, Daan de Geus, Alexander Hermans, Bastian Leibe,
- Abstract要約: また,Sa2VAは,映像オブジェクトのセグメンテーションタスクの完全な参照能力に応じて動作しないことがわかった。
そこで我々は,Sa2VAの改良版Sa2VA-iを提案する。
我々の修正により、Sa2VA-i-1Bモデルは、MeViSベンチマークのオリジナルのSa2VA-26Bモデルと同等に動作します。
- 参考スコア(独自算出の注目度): 59.989927043461364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sa2VA is a recent model for language-guided dense grounding in images and video that achieves state-of-the-art results on multiple segmentation benchmarks and that has become widely popular. However, we found that Sa2VA does not perform according to its full potential for referring video object segmentation tasks. We identify inconsistencies between training and inference procedures as the key factor holding it back. To mitigate this issue, we propose an improved version of Sa2VA, Sa2VA-i, that rectifies these issues and improves the results. In fact, Sa2VA-i sets a new state of the art for multiple video benchmarks and achieves improvements of up to +11.6 J&F on MeViS, +1.4 on Ref-YT-VOS, +3.3 on Ref-DAVIS and +4.1 on ReVOS using the same Sa2VA checkpoints. With our fixes, the Sa2VA-i-1B model even performs on par with the original Sa2VA-26B model on the MeViS benchmark. We hope that this work will show the importance of seemingly trivial implementation details and that it will provide valuable insights for the referring video segmentation field. We provide the code and updated models at https://github.com/kumuji/sa2va-i
- Abstract(参考訳): Sa2VAは、複数のセグメンテーションベンチマークで最先端の結果が得られ、広く普及している画像やビデオの言語誘導密度グラウンドディングの最近のモデルである。
しかし,Sa2VAは,映像オブジェクトのセグメンテーションタスクをフルに参照する可能性に応じて動作しないことがわかった。
我々は、トレーニングと推論手順の矛盾を、それを抑止する重要な要因として認識する。
この問題を軽減するため,Sa2VA-iの改良版(Sa2VA-i)を提案する。
実際には、Sa2VA-iは複数のビデオベンチマークのための新しい最先端技術を設定し、MeViSで+11.6 J&F、Ref-YT-VOSで1.4、Ref-DAVISで3.3、同じSa2VAチェックポイントで+4.1の改善を実現している。
我々の修正により、Sa2VA-i-1Bモデルは、MeViSベンチマークのオリジナルのSa2VA-26Bモデルと同等に動作します。
この研究は、一見自明な実装の詳細の重要性を示し、参照ビデオセグメンテーション分野に貴重な洞察を提供することを期待している。
私たちはhttps://github.com/kumuji/sa2va-iでコードと更新されたモデルを提供します。
関連論文リスト
- The 1st Solution for 7th LSVOS RVOS Track: SaSaSa2VA [57.26038712231443]
ビデオオブジェクトのセグメンテーション(RVOS)を参照するには、自然言語で表現されたビデオ内のオブジェクトのセグメンテーションと追跡が必要である。
Sa2VA上に構築することで、セグメンテーション性能を制限する2つの重要なボトルネックを特定します。
これらの問題に対処するために、Augmented and Selective Averaged Sa2VA Sa2VAを提案する。
論文 参考訳(メタデータ) (2025-09-21T08:08:17Z) - Enhancing Sa2VA for Referent Video Object Segmentation: 2nd Solution for 7th LSVOS RVOS Track [11.068687286561177]
Referential Video Object (RVOS) は、ある自然言語記述にマッチしたビデオ内のすべてのオブジェクトをセグメント化することを目的としている。
RVOS タスクにおける Sa2VA の性能を大幅に向上させる,トレーニング不要なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-19T03:01:27Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3379755761583]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models [32.6243916760583]
本稿では,映像理解における2つの中核的能力(外観と動作理解)を測定するための枠組みを提案する。
我々は、モーションベースと外観ベースの両方で堅牢な視覚表現を構築する、新しいビデオ基盤モデルであるTWLV-Iを紹介する。
V-JEPA (ViT-L) に比べて4.6%改善し, UMT (ViT-L) よりも7.7%改善した。
論文 参考訳(メタデータ) (2024-08-21T03:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。