論文の概要: Differentiable Soft-Masked Attention
- arxiv url: http://arxiv.org/abs/2206.00182v1
- Date: Wed, 1 Jun 2022 02:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:21:01.265617
- Title: Differentiable Soft-Masked Attention
- Title(参考訳): 異なるソフトマスクの注意
- Authors: Ali Athar, Jonathon Luiten, Alexander Hermans, Deva Ramanan, Bastian
Leibe
- Abstract要約: Weakly Supervised Video Objectのタスクには,「識別可能なソフトマッシュアップ注意」が使用されている。
我々は、トランスフォーマーベースのトレーニングネットワークを開発したが、1つのアノテートフレームだけで、ビデオ上でのサイクル一貫性トレーニングの恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 115.5770357189209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have become prevalent in computer vision due to their
performance and flexibility in modelling complex operations. Of particular
significance is the 'cross-attention' operation, which allows a vector
representation (e.g. of an object in an image) to be learned by attending to an
arbitrarily sized set of input features. Recently, "Masked Attention" was
proposed in which a given object representation only attends to those image
pixel features for which the segmentation mask of that object is active. This
specialization of attention proved beneficial for various image and video
segmentation tasks. In this paper, we propose another specialization of
attention which enables attending over `soft-masks' (those with continuous mask
probabilities instead of binary values), and is also differentiable through
these mask probabilities, thus allowing the mask used for attention to be
learned within the network without requiring direct loss supervision. This can
be useful for several applications. Specifically, we employ our "Differentiable
Soft-Masked Attention" for the task of Weakly-Supervised Video Object
Segmentation (VOS), where we develop a transformer-based network for VOS which
only requires a single annotated image frame for training, but can also benefit
from cycle consistency training on a video with just one annotated frame.
Although there is no loss for masks in unlabeled frames, the network is still
able to segment objects in those frames due to our novel attention formulation.
- Abstract(参考訳): トランスフォーマーは、複雑な操作をモデル化する際の性能と柔軟性のため、コンピュータビジョンで普及している。
特に重要なのは、「クロスアテンション」操作であり、これはベクトル表現(例えば画像内のオブジェクト)が任意の大きさの入力特徴の集合に参加することによって学習できるようにするものである。
近年,オブジェクトのセグメンテーションマスクがアクティブな画像画素特徴のみに対象表現が関与する「マスキーク・アテンション」が提案されている。
この注意の特殊化は、様々な画像とビデオのセグメンテーションタスクに有益であることがわかった。
本稿では,「ソフトマスク」(二値ではなく連続的なマスク確率を持つ)を克服し,これらのマスク確率を通じて区別可能な注意の特殊化を提案し,直接の損失監督を必要とせずにネットワーク内で注意を引くことができるようにした。
これはいくつかのアプリケーションに有用である。
具体的には、Weakly-Supervised Video Object Segmentation (VOS) のタスクに "Differentiable Soft-Masked Attention" を使用し、トレーニングには1つの注釈付き画像フレームのみを必要とするが、1つの注釈付きフレームでビデオ上でのサイクル一貫性トレーニングの恩恵を受けることができるVOS用のトランスフォーマーベースのネットワークを開発する。
ラベルのないフレームではマスクが失われることはないが、新しい注意の定式化により、ネットワークはこれらのフレーム内のオブジェクトをセグメンテーションすることができる。
関連論文リスト
- SMITE: Segment Me In TimE [35.56475607621353]
画像拡散モデルと追加の追跡機構に事前学習したテキストを用いて、ビデオ内のオブジェクトをセグメントする方法を示す。
提案手法は,様々なセグメンテーションシナリオを効果的に管理し,最先端の代替品より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T08:38:20Z) - LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Segment (Almost) Nothing: Prompt-Agnostic Adversarial Attacks on
Segmentation Models [61.46999584579775]
汎用セグメンテーションモデルは、様々なプロンプトから(意味)セグメンテーションマスクを生成することができる。
特に、入力画像は、イメージエンコーダによって前処理され、後にマスク予測に使用される埋め込みベクトルを得る。
我々は、半径$エプシロン=1/255$の知覚不能な摂動でさえ、ポイント、ボックス、テキストプロンプトで予測されるマスクを劇的に修正するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-24T12:57:34Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Learning To Segment Dominant Object Motion From Watching Videos [72.57852930273256]
我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
論文 参考訳(メタデータ) (2021-11-28T14:51:00Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Instance Semantic Segmentation Benefits from Generative Adversarial
Networks [13.295723883560122]
マスクの予測問題は,GANのゲームフレームワークとして定義する。
セグメンテーションネットワークがマスクを生成し、識別ネットワークがマスクの品質を決定する。
携帯電話のリサイクル,自動運転,大規模物体検出,医療用腺について報告する。
論文 参考訳(メタデータ) (2020-10-26T17:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。