論文の概要: Addressing Issues with Working Memory in Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2410.22451v1
- Date: Tue, 29 Oct 2024 18:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:28:42.153429
- Title: Addressing Issues with Working Memory in Video Object Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションにおけるワーキングメモリの課題
- Authors: Clayton Bromley, Alexander Moore, Amar Saini, Douglas Poland, Carmen Carrano,
- Abstract要約: ビデオオブジェクトセグメンテーション(VOS)モデルは、入ってくる未注釈画像と画像マスク関係の歴史を比較する。
芸術モデルの現在の状態は、クリーンなビデオデータで非常によく機能する。
以前のフレームのワーキングメモリへの依存は、エラーの余地を残します。
既存の動作メモリベースのVOSモデルに適用可能な,簡単なアルゴリズム変更を提案する。
- 参考スコア(独自算出の注目度): 37.755852787082254
- License:
- Abstract: Contemporary state-of-the-art video object segmentation (VOS) models compare incoming unannotated images to a history of image-mask relations via affinity or cross-attention to predict object masks. We refer to the internal memory state of the initial image-mask pair and past image-masks as a working memory buffer. While the current state of the art models perform very well on clean video data, their reliance on a working memory of previous frames leaves room for error. Affinity-based algorithms include the inductive bias that there is temporal continuity between consecutive frames. To account for inconsistent camera views of the desired object, working memory models need an algorithmic modification that regulates the memory updates and avoid writing irrelevant frames into working memory. A simple algorithmic change is proposed that can be applied to any existing working memory-based VOS model to improve performance on inconsistent views, such as sudden camera cuts, frame interjections, and extreme context changes. The resulting model performances show significant improvement on video data with these frame interjections over the same model without the algorithmic addition. Our contribution is a simple decision function that determines whether working memory should be updated based on the detection of sudden, extreme changes and the assumption that the object is no longer in frame. By implementing algorithmic changes, such as this, we can increase the real-world applicability of current VOS models.
- Abstract(参考訳): 現代の最先端ビデオオブジェクトセグメンテーション(VOS)モデルは、入力された未注釈画像と、親和性やクロスアテンションによるオブジェクトマスクの予測によるイメージマスク関係の歴史を比較する。
初期画像マスクペアと過去の画像マスクの内部記憶状態をワーキングメモリバッファと呼ぶ。
現在の最先端モデルはクリーンなビデオデータで非常によく機能するが、以前のフレームのワーキングメモリへの依存はエラーの余地を残している。
親和性に基づくアルゴリズムは、連続するフレーム間に時間的連続性が存在するという帰納的バイアスを含む。
所望のオブジェクトの一貫性のないカメラビューを説明するために、ワーキングメモリモデルは、メモリ更新を規制し、無関係なフレームをワーキングメモリに書き込むのを避けるアルゴリズム的な修正が必要である。
既存の作業メモリベースのVOSモデルに適用可能な,突然のカメラカットやフレーム干渉,極端なコンテキスト変化など,一貫性のないビューのパフォーマンス向上のための,簡単なアルゴリズム的変更を提案する。
得られたモデル性能は, アルゴリズムを付加することなく, 同一モデル上でのフレーム干渉による映像データに対する顕著な改善を示す。
私たちのコントリビューションは、突然の極端な変化の検出と、オブジェクトがもはやフレームにないという仮定に基づいて、ワーキングメモリを更新すべきかどうかを判断する単純な決定関数です。
このようなアルゴリズム的な変更を実装することで、現在のVOSモデルの現実的な適用性を高めることができる。
関連論文リスト
- AMES: Asymmetric and Memory-Efficient Similarity Estimation for Instance-level Retrieval [14.009257997448634]
本研究は,メモリ効率の制約を考慮に入れたインスタンスレベルの画像検索の問題について検討する。
提案モデルは、画像と画像の類似性を推定するために設計されたトランスフォーマーベースのアーキテクチャを使用する。
標準ベンチマークの結果は、手作りモデルと学習モデルの両方に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2024-08-06T16:29:51Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Per-Clip Video Object Segmentation [110.08925274049409]
近年、メモリベースの手法は、半教師付きビデオオブジェクトセグメンテーションにおいて有望な結果を示している。
映像オブジェクトのセグメンテーションをクリップワイドマスクワイド伝搬として扱う。
本稿では,Clip毎の推論に適した新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-03T09:02:29Z) - Learning Quality-aware Dynamic Memory for Video Object Segmentation [32.06309833058726]
本稿では,各フレームのセグメンテーション品質を評価するために,QDMN(Quality-Aware Dynamic Memory Network)を提案する。
我々のQDMNは、DAVISとYouTube-VOSベンチマークの両方で最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-07-16T12:18:04Z) - Recurrent Dynamic Embedding for Video Object Segmentation [54.52527157232795]
一定サイズのメモリバンクを構築するためにRDE(Recurrent Dynamic Embedding)を提案する。
本稿では, SAM を長時間の動画でより堅牢にするため, トレーニング段階での無バイアス誘導損失を提案する。
また、メモリバンクの異なる品質のマスクの埋め込みをネットワークが修復できるように、新たな自己補正戦略を設計する。
論文 参考訳(メタデータ) (2022-05-08T02:24:43Z) - Solving Continuous Control with Episodic Memory [1.9493449206135294]
エピソード記憶により、強化学習アルゴリズムは過去の有望な体験を記憶し、活用してエージェントのパフォーマンスを向上させることができる。
本研究の目的は, エピソード記憶を連続制御におけるエージェントの性能向上に有効か, という問いに答えることである。
論文 参考訳(メタデータ) (2021-06-16T14:51:39Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。