論文の概要: Show Me When and Where: Towards Referring Video Object Segmentation in the Wild
- arxiv url: http://arxiv.org/abs/2603.14300v1
- Date: Sun, 15 Mar 2026 09:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.731205
- Title: Show Me When and Where: Towards Referring Video Object Segmentation in the Wild
- Title(参考訳): 野生での動画オブジェクトのセグメンテーションを振り返って
- Authors: Mingqi Gao, Jinyu Yang, Jingnan Luo, Xiantong Zhen, Jungong Han, Giovanni Montana, Feng Zheng,
- Abstract要約: そこで本研究では,次世代RVOSに向けた新たな設定について紹介する。
我々の新しいベンチマークでは、RVOSメソッドに挑戦して、ビデオにオブジェクトが現れる場所だけでなく、いつ現れるかを示す。
われわれのYoURVOSデータセットは命令型ベンチマークを提供しており、実用化のためのRVOSメソッドの進歩を推し進める。
- 参考スコア(独自算出の注目度): 98.87931411432106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring video object segmentation (RVOS) has recently generated great popularity in computer vision due to its widespread applications. Existing RVOS setting contains elaborately trimmed videos, with text-referred objects always appearing in all frames, which however fail to fully reflect the realistic challenges of this task. This simplified setting requires RVOS methods to only predict where objects, with no need to show when the objects appear. In this work, we introduce a new setting towards in-the-wild RVOS. To this end, we collect a new benchmark dataset using Youtube Untrimmed videos for RVOS - YoURVOS, which contains 1,120 in-the-wild videos with 7 times more duration and scenes than existing datasets. Our new benchmark challenges RVOS methods to show not only where but also when objects appear in videos. To set a baseline, we propose Object-level Multimodal TransFormers (OMFormer) to tackle the challenges, which are characterized by encoding object-level multimodal interactions for efficient and global spatial-temporal localisation. We demonstrate that previous VOS methods struggle on our YoURVOS benchmark, especially with the increase of target-absent frames, while our OMFormer consistently performs well. Our YoURVOS dataset offers an imperative benchmark, which will push forward the advancement of RVOS methods for practical applications.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)は近年,コンピュータビジョンにおいて広く普及している。
既存のRVOS設定には精巧にトリミングされたビデオが含まれており、テキスト参照されたオブジェクトは常にすべてのフレームに現れるが、このタスクの現実的な課題を完全に反映することができない。
この単純化された設定では、RVOSメソッドはオブジェクトがいつ現れるかを示す必要がなく、どこにしかオブジェクトが現れるかを予測する必要がある。
そこで本研究では,Wild RVOS の新たな設定について紹介する。
この目的のために、Youtube Untrimmed video for RVOS - YoURVOSという、既存のデータセットの7倍の時間とシーンを持つ、1,120のアプリ内ビデオを含む、新しいベンチマークデータセットを収集しました。
我々の新しいベンチマークでは、RVOSメソッドに挑戦して、ビデオにオブジェクトが現れる場所だけでなく、いつ現れるかを示す。
そこで本研究では,オブジェクトレベルのマルチモーダルなインタラクションを,効率的かつグローバルな空間時間的ローカライゼーションのために符号化することが特徴であるオブジェクトレベルのマルチモーダルトランスフォーマー(OMFormer)を提案する。
従来の VOS メソッドは YoURVOS のベンチマークで,特にOMFormer が一貫して動作するのに対して,対象フレームの増加に苦慮していることを示す。
われわれのYoURVOSデータセットは命令型ベンチマークを提供しており、実用化のためのRVOSメソッドの進歩を推し進める。
関連論文リスト
- Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation [51.2732688481343]
本稿では,長期参照オブジェクトセグメンテーションのための大規模ベンチマークであるLongtextbf-RVOSを紹介する。
Long-RVOSには、平均時間60秒を超える2,000以上のビデオが含まれており、さまざまなオブジェクトをカバーしている。
フレーム単位の空間評価にのみ依存する従来のベンチマークとは異なり、時間的・時間的整合性を評価するために2つの指標を導入する。
論文 参考訳(メタデータ) (2025-05-19T04:52:31Z) - 4th PVUW MeViS 3rd Place Report: Sa2VA [105.88675577642204]
より強力なMLLM上でのテスト時間推定法を簡易に修正することで,MeVISのより強力な結果が得られることを示す。
特に,画像とビデオの密接な理解のための統一モデルである,最近のSa2VAを採用する。
論文 参考訳(メタデータ) (2025-04-01T07:06:47Z) - MOSE: A New Dataset for Video Object Segmentation in Complex Scenes [106.64327718262764]
ビデオオブジェクトセグメンテーション(VOS)は、ビデオクリップシーケンス全体を通して特定のオブジェクトをセグメンテーションすることを目的としている。
最先端のVOSメソッドは、既存のデータセット上で優れたパフォーマンス(例えば、90%以上のJ&F)を達成した。
我々は、複雑な環境でのトラッキングとセグメンテーションを研究するために、coMplex video Object SEgmentation (MOSE)と呼ばれる新しいVOSデータセットを収集する。
論文 参考訳(メタデータ) (2023-02-03T17:20:03Z) - LVOS: A Benchmark for Long-term Video Object Segmentation [31.76468328063721]
textbfLVOSという,合計421分間の220ビデオからなるベンチマークデータセットを提案する。
LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。
本稿では,時間的情報を適切に活用するための3つの相補的メモリバンクからなる横動的メモリネットワーク(DDMemory)を提案する。
論文 参考訳(メタデータ) (2022-11-18T11:59:37Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。