論文の概要: VISAGE: Video Instance Segmentation with Appearance-Guided Enhancement
- arxiv url: http://arxiv.org/abs/2312.04885v2
- Date: Fri, 8 Mar 2024 10:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:53:32.996613
- Title: VISAGE: Video Instance Segmentation with Appearance-Guided Enhancement
- Title(参考訳): VISAGE: 外観改善によるビデオインスタンスセグメンテーション
- Authors: Hanjung Kim, Jaehyun Kang, Miran Heo, Sukjun Hwang, Seoung Wug Oh,
Seon Joo Kim
- Abstract要約: オンラインビデオインスタンス (VIS) 法は、強力なクエリベースの検出器によって著しく進歩している。
しかし,これらの手法は位置情報に大きく依存していることが観察された。
本稿では,トラッカーにおける物体マッチングの鍵軸は外観情報であり,位置的手がかりが不十分な状況下では,その特徴を識別する上で非常に指導的になることを示す。
- 参考スコア(独自算出の注目度): 39.154059294954614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, online Video Instance Segmentation (VIS) methods have shown
remarkable advancement with their powerful query-based detectors. Utilizing the
output queries of the detector at the frame-level, these methods achieve high
accuracy on challenging benchmarks. However, our observations demonstrate that
these methods heavily rely on location information, which often causes
incorrect associations between objects. This paper presents that a key axis of
object matching in trackers is appearance information, which becomes greatly
instructive under conditions where positional cues are insufficient for
distinguishing their identities. Therefore, we suggest a simple yet powerful
extension to object decoders that explicitly extract embeddings from backbone
features and drive queries to capture the appearances of objects, which greatly
enhances instance association accuracy. Furthermore, recognizing the
limitations of existing benchmarks in fully evaluating appearance awareness, we
have constructed a synthetic dataset to rigorously validate our method. By
effectively resolving the over-reliance on location information, we achieve
state-of-the-art results on YouTube-VIS 2019/2021 and Occluded VIS (OVIS). Code
is available at https://github.com/KimHanjung/VISAGE.
- Abstract(参考訳): 近年, オンラインビデオインスタンスセグメンテーション (VIS) 手法は, 強力なクエリベースの検出器によって著しく進歩している。
フレームレベルでの検出器の出力クエリを利用して、これらの手法は挑戦的なベンチマークにおいて高い精度を達成する。
しかし,これらの手法は位置情報に大きく依存しており,オブジェクト間の不正確な関連を生じさせることが多い。
本稿では,トラッカーにおける物体マッチングの鍵軸は外観情報であり,位置的手がかりが不十分な状況下では,その特徴を識別する上で非常に指導的になることを示す。
したがって、backbone機能から埋め込みを明示的に抽出し、クエリを駆動してオブジェクトの外観をキャプチャするオブジェクトデコーダの単純かつ強力な拡張を提案する。
さらに,既存のベンチマークによる外観認識の限界を認識し,本手法を厳格に検証するための合成データセットを構築した。
YouTube-VIS 2019/2021とOccluded VIS(OVIS)では,位置情報の過度な信頼性を効果的に解決することで,最先端の結果が得られた。
コードはhttps://github.com/KimHanjung/VISAGEで入手できる。
関連論文リスト
- Context-Aware Video Instance Segmentation [12.71520768233772]
本稿では,コンテキスト対応型ビデオインスタンス(CAVIS)について紹介する。
本研究では、コンテキスト認識型インスタンス追跡装置(CAIT)を提案する。これは、インスタンスを取り巻くコンテキストデータをコアインスタンス機能とマージすることで、トラッキング精度を向上させる。
また,PCC(Prototypeal Cross-frame Contrastive)ロスを導入し,フレーム間のオブジェクトレベルの特徴の整合性を確保する。
論文 参考訳(メタデータ) (2024-07-03T11:11:16Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - Learning to Detect Instance-level Salient Objects Using Complementary
Image Labels [55.049347205603304]
本報告では,本問題に対する第1の弱教師付きアプローチを提案する。
本稿では,候補対象の特定にクラス整合性情報を活用するSaliency Detection Branch,オブジェクト境界をデライン化するためにクラス整合性情報を利用するBundary Detection Branch,サブティナイズ情報を用いたCentroid Detection Branchを提案する。
論文 参考訳(メタデータ) (2021-11-19T10:15:22Z) - Weakly Supervised Video Salient Object Detection [79.51227350937721]
本稿では,relabeled relabeled "fixation guided scribble annotations" に基づく最初の弱教師付きビデオサリエント物体検出モデルを提案する。
効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,「アプレンス・モーション・フュージョン・モジュール」と双方向のConvLSTMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T09:48:38Z) - Dense Relation Distillation with Context-aware Aggregation for Few-Shot
Object Detection [18.04185751827619]
新規なオブジェクトのきめ細かい特徴を、ほんのわずかなデータで簡単に見落としてしまうため、オブジェクト検出は困難である。
本稿では,少数の検出問題に対処するために,DCNet (Context-aware Aggregation) を用いたDense Relation Distillationを提案する。
論文 参考訳(メタデータ) (2021-03-30T05:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。