論文の概要: The 1st Solution for 7th LSVOS RVOS Track: SaSaSa2VA
- arxiv url: http://arxiv.org/abs/2509.16972v1
- Date: Sun, 21 Sep 2025 08:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.060302
- Title: The 1st Solution for 7th LSVOS RVOS Track: SaSaSa2VA
- Title(参考訳): 7th LSVOS RVOSトラックの最初のソリューション: SaSa2VA
- Authors: Quanzhu Niu, Dengxian Gong, Shihao Chen, Tao Zhang, Yikang Zhou, Haobo Yuan, Lu Qi, Xiangtai Li, Shunping Ji,
- Abstract要約: ビデオオブジェクトのセグメンテーション(RVOS)を参照するには、自然言語で表現されたビデオ内のオブジェクトのセグメンテーションと追跡が必要である。
Sa2VA上に構築することで、セグメンテーション性能を制限する2つの重要なボトルネックを特定します。
これらの問題に対処するために、Augmented and Selective Averaged Sa2VA Sa2VAを提案する。
- 参考スコア(独自算出の注目度): 57.26038712231443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) requires segmenting and tracking objects in videos conditioned on natural-language expressions, demanding fine-grained understanding of both appearance and motion. Building on Sa2VA, which couples a Multi-modal Large Language Model (MLLM) with the video segmentation model SAM2, we identify two key bottlenecks that limit segmentation performance: sparse frame sampling and reliance on a single [SEG] token for an entire video. We propose Segmentation Augmented and Selective Averaged Sa2VA SaSaSa2VA to address these issues. On the 7th LSVOS Challenge (RVOS track), SaSaSa2VA achieves a $J\&F$ of 67.45, ranking first and surpassing the runner-up by 2.80 points. This result and ablation studies demonstrate that efficient segmentation augmentation and test-time ensembling substantially enhance grounded MLLMs for RVOS. The code is released in Sa2VA repository: https://github.com/magic-research/Sa2VA.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照には、自然言語表現で条件付けられたビデオ内のオブジェクトのセグメンテーションと追跡が必要であり、外観と動きの両方を詳細に理解する必要がある。
ビデオセグメンテーションモデルSAM2とMLLM(Multi-modal Large Language Model)を結合したSa2VA上に構築し、セグメンテーション性能を制限する2つの主要なボトルネックを同定する。
これらの問題に対処するため、Segmentation Augmented and Selective Averaged Sa2VA SaSa2VAを提案する。
第7回LSVOSチャレンジ(RVOSトラック)では、SaSaSa2VAがJ\&F$67.45を獲得し、ランキング1位で2.80ポイントを突破した。
この結果とアブレーション研究により, 効率的なセグメンテーション増強とテスト時間アンサンブルにより, RVOSの接地型MLLMが著しく向上することが示された。
コードはSa2VAリポジトリ(https://github.com/magic-research/Sa2VA)でリリースされている。
関連論文リスト
- Enhancing Sa2VA for Referent Video Object Segmentation: 2nd Solution for 7th LSVOS RVOS Track [11.068687286561177]
Referential Video Object (RVOS) は、ある自然言語記述にマッチしたビデオ内のすべてのオブジェクトをセグメント化することを目的としている。
RVOS タスクにおける Sa2VA の性能を大幅に向上させる,トレーニング不要なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-19T03:01:27Z) - Few-Shot Referring Video Single- and Multi-Object Segmentation via Cross-Modal Affinity with Instance Sequence Matching [57.4215496482743]
ビデオオブジェクトセグメンテーション(RVOS)の参照は、自然言語記述でガイドされたビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,トランスフォーマーベースモデルであるFS-RVOSを提案する。
実験の結果、FS-RVOSとFS-RVMOSは様々なベンチマークで最先端の手法より優れており、優れた堅牢性と精度を示している。
論文 参考訳(メタデータ) (2025-04-18T14:19:07Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3379755761583]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。
SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。
訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文 参考訳(メタデータ) (2024-08-19T16:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。