論文の概要: ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations
- arxiv url: http://arxiv.org/abs/2501.14607v1
- Date: Fri, 24 Jan 2025 16:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:46.901643
- Title: ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations
- Title(参考訳): ReferDino: ビデオオブジェクトのセグメンテーションをビジュアルグラウンドファウンデーションで参照する
- Authors: Tianming Liang, Kun-Yu Lin, Chaolei Tan, Jianguo Zhang, Wei-Shi Zheng, Jian-Fang Hu,
- Abstract要約: ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通して対象オブジェクトをセグメンテーションすることを目的としている。
我々は、事前訓練された視覚基盤モデルから強力な視覚言語理解を継承する、エンドツーエンドのRVOSモデルである textbfReferDINO を提案する。
- 参考スコア(独自算出の注目度): 33.74746234704817
- License:
- Abstract: Referring video object segmentation (RVOS) aims to segment target objects throughout a video based on a text description. Despite notable progress in recent years, current RVOS models remain struggle to handle complicated object descriptions due to their limited video-language understanding. To address this limitation, we present \textbf{ReferDINO}, an end-to-end RVOS model that inherits strong vision-language understanding from the pretrained visual grounding foundation models, and is further endowed with effective temporal understanding and object segmentation capabilities. In ReferDINO, we contribute three technical innovations for effectively adapting the foundation models to RVOS: 1) an object-consistent temporal enhancer that capitalizes on the pretrained object-text representations to enhance temporal understanding and object consistency; 2) a grounding-guided deformable mask decoder that integrates text and grounding conditions to generate accurate object masks; 3) a confidence-aware query pruning strategy that significantly improves the object decoding efficiency without compromising performance. We conduct extensive experiments on five public RVOS benchmarks to demonstrate that our proposed ReferDINO outperforms state-of-the-art methods significantly. Project page: \url{https://isee-laboratory.github.io/ReferDINO}
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通して対象オブジェクトをセグメンテーションすることを目的としている。
近年の顕著な進歩にもかかわらず、現在のRVOSモデルはビデオ言語理解が限られているため、複雑なオブジェクト記述を扱うのに苦戦している。
この制限に対処するために、事前訓練された視覚基盤モデルから強力な視覚言語理解を継承するエンドツーエンドのRVOSモデルである「textbf{ReferDINO}」を提案し、より効果的な時間的理解とオブジェクトセグメンテーション機能を備えている。
ReferDINOでは、基礎モデルをRVOSに効果的に適用するための3つの技術革新に貢献する。
1) 時間的理解とオブジェクトの整合性を高めるために、事前訓練されたオブジェクトテキスト表現を生かした、オブジェクト一貫性のある時間的エンハンサー
2 テキストと接地条件を統合して正確な物体マスクを生成する接地誘導変形マスクデコーダ
3)性能を損なうことなくオブジェクトの復号効率を大幅に向上させる信頼性の高いクエリ・プルーニング・ストラテジー。
提案したReferDINOが最先端の手法を大幅に上回ることを示すため,5つの公開RVOSベンチマークで広範な実験を行った。
プロジェクトページ: \url{https://isee-laboratory.github.io/ReferDINO}
関連論文リスト
- GroPrompt: Efficient Grounded Prompting and Adaptation for Referring Video Object Segmentation [41.67544072483324]
Referring Video Object (RVOS) は、ビデオ全体を通してクエリ文によって参照されるオブジェクトをセグメント化することを目的としている。
本稿では,テキスト・アウェア・プロンプト・コントラスト・ラーニング(TAP-CL)を提案する。
提案したTAP-CLにより、GroPromptフレームワークは時間一貫性はあるがテキスト対応の位置プロンプトを生成することができる。
論文 参考訳(メタデータ) (2024-06-18T17:54:17Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - The Second Place Solution for The 4th Large-scale Video Object
Segmentation Challenge--Track 3: Referring Video Object Segmentation [18.630453674396534]
ReferFormerは、すべてのビデオフレームで言語表現によって参照される所定のビデオでオブジェクトインスタンスをセグメントすることを目的としている。
本研究は, 循環学習率, 半教師付きアプローチ, テスト時間拡張推論など, さらなる向上策を提案する。
改良されたReferFormerはCVPR2022 Referring Youtube-VOS Challengeで2位にランクインした。
論文 参考訳(メタデータ) (2022-06-24T02:15:06Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z) - Learning Video Object Segmentation from Unlabeled Videos [158.18207922363783]
未ラベルビデオからのオブジェクトパターン学習に対処するビデオオブジェクトセグメンテーション(VOS)を提案する。
複数の粒度で VOS の特性を包括的にキャプチャする,教師なし/弱教師付き学習フレームワーク MuG を導入している。
論文 参考訳(メタデータ) (2020-03-10T22:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。