論文の概要: Guided Interactive Video Object Segmentation Using Reliability-Based
Attention Maps
- arxiv url: http://arxiv.org/abs/2104.10386v1
- Date: Wed, 21 Apr 2021 07:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 14:26:28.543878
- Title: Guided Interactive Video Object Segmentation Using Reliability-Based
Attention Maps
- Title(参考訳): 信頼度に基づくアテンションマップを用いた対話型ビデオオブジェクトセグメンテーション
- Authors: Yuk Heo, Yeong Jun Koh, Chang-Su Kim
- Abstract要約: 本論文では,映像オブジェクトの対話的セグメンテーション(GIS)アルゴリズムを提案し,セグメンテーション精度の向上と対話時間の短縮を図る。
我々は,隣接フレームにセグメンテーション結果を伝達する,交差点対応伝搬モジュールを開発した。
実験により,提案アルゴリズムは従来のアルゴリズムよりも高速に精度の高いセグメンテーション結果を提供することを示した。
- 参考スコア(独自算出の注目度): 55.94785248905853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel guided interactive segmentation (GIS) algorithm for video
objects to improve the segmentation accuracy and reduce the interaction time.
First, we design the reliability-based attention module to analyze the
reliability of multiple annotated frames. Second, we develop the
intersection-aware propagation module to propagate segmentation results to
neighboring frames. Third, we introduce the GIS mechanism for a user to select
unsatisfactory frames quickly with less effort. Experimental results
demonstrate that the proposed algorithm provides more accurate segmentation
results at a faster speed than conventional algorithms. Codes are available at
https://github.com/yuk6heo/GIS-RAmap.
- Abstract(参考訳): 本稿では,映像オブジェクトに対する対話的セグメンテーション(GIS)アルゴリズムを提案し,セグメンテーションの精度を向上し,インタラクション時間を短縮する。
まず,複数のアノテートフレームの信頼性を分析するために,信頼性に基づくアテンションモジュールを設計する。
次に,隣接フレームにセグメンテーション結果を伝搬する交叉認識伝搬モジュールを開発した。
第3に,ユーザが少ない労力で迅速に不満足なフレームを選択するためのGIS機構を導入する。
実験により,提案アルゴリズムは従来のアルゴリズムよりも高速に精度の高いセグメンテーション結果を提供することを示した。
コードはhttps://github.com/yuk6heo/GIS-RAmapで公開されている。
関連論文リスト
- Graph Information Bottleneck for Remote Sensing Segmentation [8.879224757610368]
本稿では、画像をグラフ構造として扱い、リモートセンシングセグメンテーションのための単純なコントラスト視覚GNNアーキテクチャを提案する。
具体的には,ノードマップとエッジマップのグラフビューを構築し,最適なグラフ構造表現を得る。
UNetの畳み込みモジュールをSC-ViGモジュールに置き換え、セグメンテーションと分類タスクを完成させる。
論文 参考訳(メタデータ) (2023-12-05T07:23:22Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Learning Commonsense-aware Moment-Text Alignment for Fast Video Temporal
Grounding [78.71529237748018]
自然言語クエリで記述された時間的ビデオセグメントを効果的かつ効率的にグラウンド化することは、視覚・言語分野において必須の能力である。
既存のほとんどのアプローチでは、接地性能を改善するために、厳密に設計されたクロスモーダルな相互作用モジュールを採用しています。
本稿では,コモンセンスの視覚とテキストの表現を補完的なコモンスペースに組み込んだ,コモンセンス対応のクロスモーダルアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T13:07:05Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - LSMVOS: Long-Short-Term Similarity Matching for Video Object [3.3518869877513895]
半教師付きビデオオブジェクトセグメンテーションは、第1フレームにオブジェクトラベルが与えられた後続のフレームでオブジェクトをセグメンテーションすることを指す。
本稿では,新しい伝搬法を探索し,短期的マッチングモジュールを用いて前のフレームの情報を抽出し,伝播に適用する。
長期マッチングモジュールと短期マッチングモジュールを組み合わせることで、オンラインの微調整なしに、ネットワーク全体が効率的なビデオオブジェクトセグメンテーションを実現することができる。
論文 参考訳(メタデータ) (2020-09-02T01:32:05Z) - Interactive Video Object Segmentation Using Global and Local Transfer
Modules [51.93009196085043]
我々はアノテーションネットワーク(A-Net)と転送ネットワーク(T-Net)からなるディープニューラルネットワークを開発する。
A-Netは、フレーム上のユーザ記述を前提として、エンコーダ-デコーダアーキテクチャに基づいたセグメンテーション結果を生成する。
ユーザスクリブルをエミュレートし,補助的な損失を生かして,ネットワーク全体を2段階に分けてトレーニングする。
論文 参考訳(メタデータ) (2020-07-16T06:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。