論文の概要: Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2505.12702v1
- Date: Mon, 19 May 2025 04:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.409337
- Title: Long-RVOS: A Comprehensive Benchmark for Long-term Referring Video Object Segmentation
- Title(参考訳): Long-RVOS: ビデオオブジェクトセグメンテーションを長時間参照するための総合ベンチマーク
- Authors: Tianming Liang, Haichao Jiang, Yuting Yang, Chaolei Tan, Shuai Li, Wei-Shi Zheng, Jian-Fang Hu,
- Abstract要約: 本稿では,長期参照オブジェクトセグメンテーションのための大規模ベンチマークであるLongtextbf-RVOSを紹介する。
Long-RVOSには、平均時間60秒を超える2,000以上のビデオが含まれており、さまざまなオブジェクトをカバーしている。
フレーム単位の空間評価にのみ依存する従来のベンチマークとは異なり、時間的・時間的整合性を評価するために2つの指標を導入する。
- 参考スコア(独自算出の注目度): 31.48914479058998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring video object segmentation (RVOS) aims to identify, track and segment the objects in a video based on language descriptions, which has received great attention in recent years. However, existing datasets remain focus on short video clips within several seconds, with salient objects visible in most frames. To advance the task towards more practical scenarios, we introduce \textbf{Long-RVOS}, a large-scale benchmark for long-term referring video object segmentation. Long-RVOS contains 2,000+ videos of an average duration exceeding 60 seconds, covering a variety of objects that undergo occlusion, disappearance-reappearance and shot changing. The objects are manually annotated with three different types of descriptions to individually evaluate the understanding of static attributes, motion patterns and spatiotemporal relationships. Moreover, unlike previous benchmarks that rely solely on the per-frame spatial evaluation, we introduce two new metrics to assess the temporal and spatiotemporal consistency. We benchmark 6 state-of-the-art methods on Long-RVOS. The results show that current approaches struggle severely with the long-video challenges. To address this, we further propose ReferMo, a promising baseline method that integrates motion information to expand the temporal receptive field, and employs a local-to-global architecture to capture both short-term dynamics and long-term dependencies. Despite simplicity, ReferMo achieves significant improvements over current methods in long-term scenarios. We hope that Long-RVOS and our baseline can drive future RVOS research towards tackling more realistic and long-form videos.
- Abstract(参考訳): ビデオオブジェクトのセグメンテーション(RVOS)は,近年注目されている言語記述に基づくビデオ内のオブジェクトの識別,追跡,セグメンテーションを目的としている。
しかし、既存のデータセットは、短いビデオクリップに数秒以内にフォーカスし、ほとんどのフレームで正常なオブジェクトが見える。
より実用的なシナリオに向けてタスクを前進させるために,ビデオオブジェクトの長期参照セグメンテーションのための大規模ベンチマークである \textbf{Long-RVOS} を導入する。
Long-RVOSには平均寿命が60秒を超える2000以上のビデオが含まれており、隠蔽、失明、撮影変更などさまざまな対象をカバーしている。
静的属性, 動きパターン, 時空間関係の理解を個別に評価するために, オブジェクトに3種類の記述を手動でアノテートする。
さらに,フレーム単位の空間的評価にのみ依存する従来のベンチマークとは異なり,時間的および時空間的整合性を評価するための2つの新しい指標を導入する。
我々は,Long-RVOSの6つの最先端手法をベンチマークした。
その結果、現在のアプローチは長いビデオの課題に対して厳しい対応をとっています。
これを解決するために,動作情報を統合して時間的受容場を拡大する有望なベースライン手法であるReferMoを提案する。
単純さにもかかわらず、ReferMoは長期的なシナリオで現在のメソッドよりも大幅に改善されている。
Long-RVOSと私たちのベースラインが、よりリアルでロングフォームなビデオに取り組み、将来RVOSの研究を促進することを願っている。
関連論文リスト
- Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting [60.58915701973593]
CAT-V(Caption AnyThing in Video)は、オブジェクト中心のビデオキャプションを微粒化するためのトレーニング不要のフレームワークである。
Cat-Vは3つの重要なコンポーネントを統合している: SAMIに基づくフレーム間の正確なオブジェクトセグメンテーションのためのセグメンタ、TRACE-UniVLを動力とするテンポラルアナライザ、Intern-2.5を使用するキャピタ。
我々のフレームワークは、追加のトレーニングデータを必要とすることなく、オブジェクトの属性、アクション、ステータス、インタラクション、環境コンテキストの詳細な時間的記述を生成します。
論文 参考訳(メタデータ) (2025-04-07T22:35:36Z) - Strike the Balance: On-the-Fly Uncertainty based User Interactions for Long-Term Video Object Segmentation [23.417370317522106]
本稿では,対話的かつ半自動的なアプローチを橋渡しするビデオオブジェクトセグメンテーション(VOS)について紹介する。
関心対象の追跡期間を最大化しつつ,追跡期間の延長を最小限に抑えることを目的としている。
我々は,最近導入されたLVOSデータセットを用いて,多数の長期ビデオを提供するアプローチを評価した。
論文 参考訳(メタデータ) (2024-07-31T21:42:42Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - LVOS: A Benchmark for Long-term Video Object Segmentation [31.76468328063721]
textbfLVOSという,合計421分間の220ビデオからなるベンチマークデータセットを提案する。
LVOSのビデオは平均1.59分で、既存のVOSデータセットのビデオの20倍の長さです。
本稿では,時間的情報を適切に活用するための3つの相補的メモリバンクからなる横動的メモリネットワーク(DDMemory)を提案する。
論文 参考訳(メタデータ) (2022-11-18T11:59:37Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。