論文の概要: 4th PVUW MeViS 3rd Place Report: Sa2VA
- arxiv url: http://arxiv.org/abs/2504.00476v1
- Date: Tue, 01 Apr 2025 07:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:04.143109
- Title: 4th PVUW MeViS 3rd Place Report: Sa2VA
- Title(参考訳): 第4回PVUW MeViS第3位: Sa2VA
- Authors: Haobo Yuan, Tao Zhang, Xiangtai Li, Lu Qi, Zilong Huang, Shilin Xu, Jiashi Feng, Ming-Hsuan Yang,
- Abstract要約: より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
- 参考スコア(独自算出の注目度): 105.88675577642204
- License:
- Abstract: Referring video object segmentation (RVOS) is a challenging task that requires the model to segment the object in a video given the language description. MeViS is a recently proposed dataset that contains motion expressions of the target objects, leading to a challenging benchmark, compared with existing RVOS benchmarks. On the other hand, for referring expression tasks, a new trend is to adopt multi-modal large language model (MLLM) to achieve better image and text alignment. In this report, we show that with a simple modification to the test time inference method on stronger MLLMs, we can lead to stronger results on MeVIS. In particular, we adopt the recent method Sa2VA, a unified model for dense grounded understanding of both images and videos. By enlarging the scope of key frames, without any further training, we can achieve the 3rd place in the 4th PVUW workshop.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)の参照は、言語記述を前提として、オブジェクトをビデオにセグメントする必要がある、という難しい作業である。
MeViSは、ターゲットオブジェクトの動作表現を含む最近提案されたデータセットで、既存のRVOSベンチマークと比較すると、困難なベンチマークに繋がる。
一方、表現タスクを参照するために、より優れた画像とテキストアライメントを実現するために、MLLM(Multi-modal large language model)を採用する新しい傾向がある。
本稿では,より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
第4回PVUWワークショップでは,キーフレームの範囲を大きくすることで,さらなるトレーニングを行なわずに第3位を達成できる。
関連論文リスト
- ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通して対象オブジェクトをセグメンテーションすることを目的としている。
我々は、事前訓練された視覚基盤モデルから強力な視覚言語理解を継承する、エンドツーエンドのRVOSモデルである textbfReferDINO を提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos [110.3379755761583]
Sa2VAは、画像とビデオの両方の基盤的理解のための統一モデルである。
セグメンテーションや会話など、幅広い画像やビデオのタスクをサポートする。
本稿では,複数のタスク,特にビデオオブジェクトのセグメンテーションにおいて,Sa2VAが最先端を実現することを示す。
論文 参考訳(メタデータ) (2025-01-07T18:58:54Z) - Referring Video Object Segmentation via Language-aligned Track Selection [30.226373787454833]
ビデオオブジェクトセグメンテーション(RVOS)は、所定の自然言語表現に従って、ビデオを通してオブジェクトを追跡し、セグメンテーションする必要がある。
我々はSAM2オブジェクトトークンをコンパクトなビデオレベルオブジェクト表現として活用する新しいフレームワークであるSOLAを紹介する。
実験によると、SOLAはMeViSデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-02T05:20:35Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。