論文の概要: OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2307.09356v1
- Date: Tue, 18 Jul 2023 15:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:04:43.853526
- Title: OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation
- Title(参考訳): OnlineRefer: ビデオオブジェクトのセグメンテーションを参照するためのシンプルなオンラインベースライン
- Authors: Dongming Wu, Tiancai Wang, Yuang Zhang, Xiangyu Zhang, Jianbing Shen
- Abstract要約: ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
- 参考スコア(独自算出の注目度): 75.07460026246582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring video object segmentation (RVOS) aims at segmenting an object in a
video following human instruction. Current state-of-the-art methods fall into
an offline pattern, in which each clip independently interacts with text
embedding for cross-modal understanding. They usually present that the offline
pattern is necessary for RVOS, yet model limited temporal association within
each clip. In this work, we break up the previous offline belief and propose a
simple yet effective online model using explicit query propagation, named
OnlineRefer. Specifically, our approach leverages target cues that gather
semantic information and position prior to improve the accuracy and ease of
referring predictions for the current frame. Furthermore, we generalize our
online model into a semi-online framework to be compatible with video-based
backbones. To show the effectiveness of our method, we evaluate it on four
benchmarks, \ie, Refer-Youtube-VOS, Refer-DAVIS17, A2D-Sentences, and
JHMDB-Sentences. Without bells and whistles, our OnlineRefer with a Swin-L
backbone achieves 63.5 J&F and 64.8 J&F on Refer-Youtube-VOS and Refer-DAVIS17,
outperforming all other offline methods.
- Abstract(参考訳): ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインのパターンに陥り、各クリップは、相互モーダル理解のためのテキスト埋め込みと独立して相互作用する。
彼らは通常、RVOSにはオフラインパターンが必要であるが、クリップ内の時間的関連をモデル化する。
本研究では,従来のオフラインの信念を整理し,明示的なクエリ伝達を用いたシンプルなオンラインモデルを提案する。
具体的には,現在のフレームに対する参照予測の精度と容易性を改善するために,セマンティック情報と位置を収集するターゲットキューを活用する。
さらに,オンラインモデルをビデオベースのバックボーンと互換性のある半オンラインフレームワークに一般化する。
提案手法の有効性を示すため,Shaie,Refer-Youtube-VOS,Refer-DAVIS17,A2D-Sentences,JHMDB-Sentencesの4つのベンチマークを用いて評価を行った。
Swin-Lのバックボーンを使ったOnlineReferは、Refer-Youtube-VOSとRefer-DAVIS17で63.5 J&Fと64.8 J&Fを達成した。
関連論文リスト
- Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams [78.72965584414368]
人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。
既存のモデルと比較して、Flash-VStreamは遅延推論とVRAM消費の大幅な削減を実現している。
本稿では,オンライン動画ストリーミング理解に特化して設計された質問応答ベンチマークであるVStream-QAを提案する。
論文 参考訳(メタデータ) (2024-06-12T11:07:55Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - TCOVIS: Temporally Consistent Online Video Instance Segmentation [98.29026693059444]
そこで我々は,TCOVISというビデオインスタンスセグメンテーションのための新しいオンライン手法を提案する。
本手法のコアは,グローバルなインスタンス割り当て戦略とビデオ時間拡張モジュールから構成される。
提案手法を4つのVISベンチマークで評価し,ベル・アンド・ウィストルを使わずに全ベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-21T07:59:15Z) - NOVIS: A Case for End-to-End Near-Online Video Instance Segmentation [22.200700685751826]
ビデオインスタンス(VIS)コミュニティは、オフラインメソッドは一般的にオンライン処理によってフレームよりも優れているという共通の信念の下で運営されている。
本稿では、異なる処理パラダイムの詳細な分析と、新しいエンドツーエンドビデオインスタンス法を提案する。
我々のNOVISは、手作りの追跡を避ける最初のニアオンラインVISアプローチである。
論文 参考訳(メタデータ) (2023-08-29T12:51:04Z) - Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - In Defense of Online Models for Video Instance Segmentation [70.16915119724757]
比較学習に基づくオンライン・フレームワークを提案する。
その単純さにもかかわらず、我々の方法は3つのベンチマークでオンラインおよびオフラインのすべてのメソッドより優れています。
提案手法は,第4回大規模ビデオオブジェクトチャレンジのビデオインスタンスセグメンテーショントラックで優勝した。
論文 参考訳(メタデータ) (2022-07-21T17:56:54Z) - Online Video Instance Segmentation via Robust Context Fusion [36.376900904288966]
ビデオインスタンスセグメンテーション(VIS)は、ビデオシーケンス内のオブジェクトインスタンスを分類、セグメンテーション、追跡することを目的としている。
最近のトランスフォーマーベースのニューラルネットワークは、VISタスクのモデリングの強力な能力を実証している。
そこで本稿では,VISをオンライン方式で扱うための堅牢なコンテキスト融合ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T15:04:50Z) - Rethinking Cross-modal Interaction from a Top-down Perspective for
Referring Video Object Segmentation [140.4291169276062]
ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
以前の手法では、画像格子上の言語参照を直接グラウンド化することで、RVOSに対処するのが一般的であった。
そこで本研究では,複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体へ伝播させることにより,オブジェクトトラッカーの徹底的なセットを構築した。
次に,Transformerベースのトラックレット言語基底モジュールを提案し,インスタンスレベルの視覚的関係とモーダル間相互作用を同時に,効率的にモデル化する。
論文 参考訳(メタデータ) (2021-06-02T10:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。