Fugu-MT 論文翻訳(概要): Mask Guided Gated Convolution for Amodal Content Completion

論文の概要: Mask Guided Gated Convolution for Amodal Content Completion

arxiv url: http://arxiv.org/abs/2407.15203v1
Date: Sun, 21 Jul 2024 15:51:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 18:49:14.265027
Title: Mask Guided Gated Convolution for Amodal Content Completion
Title（参考訳）: Mask Guided Gated Convolution for Amodal Content Completion
Authors: Kaziwa Saleh, Sándor Szénási, Zoltán Vámossy,
Abstract要約: 部分的な可視物体を再構成するモデルを提案する。モデルではマスクを入力として取り、それを重み付けマスクと呼ぶ。可視領域からより多くの注意を引くことで、我々のモデルはベースラインモデルよりも効果的に見えないパッチを予測することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present a model to reconstruct partially visible objects. The model takes a mask as an input, which we call weighted mask. The mask is utilized by gated convolutions to assign more weight to the visible pixels of the occluded instance compared to the background, while ignoring the features of the invisible pixels. By drawing more attention from the visible region, our model can predict the invisible patch more effectively than the baseline models, especially in instances with uniform texture. The model is trained on COCOA dataset and two subsets of it in a self-supervised manner. The results demonstrate that our model generates higher quality and more texture-rich outputs compared to baseline models. Code is available at: https://github.com/KaziwaSaleh/mask-guided.
Abstract（参考訳）: 部分的な可視物体を再構成するモデルを提案する。モデルではマスクを入力として取り、それを重み付けマスクと呼ぶ。マスクは、ゲート状の畳み込みによって、背景に比べて隠蔽されたインスタンスの可視画素により多くの重みを割り当てると共に、見えない画素の特徴を無視する。目に見える領域からより多くの注意を引くことで、ベースラインモデル、特に均一なテクスチャを持つ場合において、我々のモデルは、ベースラインモデルよりも効果的に見えないパッチを予測することができる。このモデルはCOCOAデータセットと2つのサブセットを自己管理的にトレーニングする。その結果,本モデルでは,ベースラインモデルよりも高品質でテクスチャに富んだ出力が得られることがわかった。コードは、https://github.com/KaziwaSaleh/mask-guided.comで入手できる。

関連論文リスト

MF-VITON: High-Fidelity Mask-Free Virtual Try-On with Minimal Input [69.33864837012202]
本研究では,一人のイメージとターゲット衣服のみを用いて,現実的なVITONを実現するMask-Free VITONフレームワークを提案する。既存のMaskベースのVITONモデルを利用して高品質なデータセットを合成する。このデータセットには、多様で現実的な人物画像とそれに対応する衣服が含まれており、背景も様々で、現実世界のシナリオを模倣している。
論文参考訳（メタデータ） (2025-03-11T17:40:59Z)
ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文参考訳（メタデータ） (2024-07-17T22:04:00Z)
Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文参考訳（メタデータ） (2023-03-12T05:28:55Z)
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文参考訳（メタデータ） (2023-01-09T18:59:50Z)
Towards Improved Input Masking for Convolutional Neural Networks [66.99060157800403]
層マスキングと呼ぶCNNのための新しいマスキング手法を提案する。本手法は,マスク形状や色がモデル出力に与える影響を排除あるいは最小化することができることを示す。また,マスクの形状がクラスに関する情報を漏洩させる可能性を示し,クラス関連特徴に対するモデル依存度の推定に影響を及ぼすことを示した。
論文参考訳（メタデータ） (2022-11-26T19:31:49Z)
Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文参考訳（メタデータ） (2022-11-16T12:48:52Z)
AISFormer: Amodal Instance Segmentation with Transformer [9.042737643989561]
Amodal Instance(AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。本稿では、Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
論文参考訳（メタデータ） (2022-10-12T15:42:40Z)
What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-05-23T12:30:04Z)
RePaint: Inpainting using Denoising Diffusion Probabilistic Models [161.74792336127345]
Free-form Inpaintingは任意のバイナリマスクで指定された領域のイメージに新しいコンテンツを追加するタスクである。 RePaint: A Denoising Probabilistic Model (DDPM) を用いた塗装手法を提案する。本手法は,標準的なマスクと極端マスクを用いて,顔と汎用画像の塗装の両面で検証する。
論文参考訳（メタデータ） (2022-01-24T18:40:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。