論文の概要: Tuning-Free Amodal Segmentation via the Occlusion-Free Bias of Inpainting Models
- arxiv url: http://arxiv.org/abs/2503.18947v1
- Date: Mon, 24 Mar 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:19.719609
- Title: Tuning-Free Amodal Segmentation via the Occlusion-Free Bias of Inpainting Models
- Title(参考訳): 塗装モデルの排除自由バイアスによる調整自由アモーダルセグメンテーション
- Authors: Jae Joong Lee, Bedrich Benes, Raymond A. Yeh,
- Abstract要約: アモーダルセグメンテーションは、オブジェクトの可視領域と隠蔽領域の両方に対してセグメンテーションマスクを予測することを目的としている。
既存のほとんどの研究は、これを教師付き学習問題として定式化し、手動で注釈付アモーダルマスクや合成訓練データを必要とする。
この研究は、アモーダルセグメンテーションのための事前訓練された拡散ベースの塗装モデルを再利用するチューニング不要なアプローチを導入する。
- 参考スコア(独自算出の注目度): 16.800402755022482
- License:
- Abstract: Amodal segmentation aims to predict segmentation masks for both the visible and occluded regions of an object. Most existing works formulate this as a supervised learning problem, requiring manually annotated amodal masks or synthetic training data. Consequently, their performance depends on the quality of the datasets, which often lack diversity and scale. This work introduces a tuning-free approach that repurposes pretrained diffusion-based inpainting models for amodal segmentation. Our approach is motivated by the "occlusion-free bias" of inpainting models, i.e., the inpainted objects tend to be complete objects without occlusions. Specifically, we reconstruct the occluded regions of an object via inpainting and then apply segmentation, all without additional training or fine-tuning. Experiments on five datasets demonstrate the generalizability and robustness of our approach. On average, our approach achieves 5.3% more accurate masks over the state-of-the-art.
- Abstract(参考訳): アモーダルセグメンテーションは、オブジェクトの可視領域と隠蔽領域の両方に対してセグメンテーションマスクを予測することを目的としている。
既存のほとんどの研究は、これを教師付き学習問題として定式化し、手動で注釈付アモーダルマスクや合成訓練データを必要とする。
その結果、そのパフォーマンスはデータセットの品質に依存します。
この研究は、アモーダルセグメンテーションのための事前訓練された拡散ベースの塗装モデルを再利用するチューニング不要なアプローチを導入する。
私たちのアプローチは、インペイントモデル(つまり、インペイントされたオブジェクトは、オクルージョンなしで完備なオブジェクトとなる傾向がある)の「閉塞自由バイアス」によって動機付けられている。
具体的には,物体の隠蔽領域を塗装で再構築し,さらにセグメンテーションを適用して,追加のトレーニングや微調整を行うことなく再現する。
5つのデータセットの実験は、我々のアプローチの一般化可能性と堅牢性を示している。
平均して、我々の手法は最先端のマスクよりも5.3%正確なマスクを達成している。
関連論文リスト
- Sequential Amodal Segmentation via Cumulative Occlusion Learning [15.729212571002906]
視覚系は、物体の可視領域と隠蔽領域の両方を分割できなければならない。
本研究では,不確実なカテゴリを持つオブジェクトの逐次アモーダルセグメンテーションを目的とした累積オクルージョン学習を用いた拡散モデルを提案する。
このモデルは拡散中の累積マスク戦略を用いて予測を反復的に洗練し、目に見えない領域の不確かさを効果的に捉える。
これは、物体間の空間的秩序を解読し、密集した視覚的な場面で隠蔽された物体の完全な輪郭を正確に予測する、アモーダル知覚の人間の能力に類似している。
論文 参考訳(メタデータ) (2024-05-09T14:17:26Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - pix2gestalt: Amodal Segmentation by Synthesizing Wholes [34.45464291259217]
pix2gestaltはゼロショットアモーダルセグメンテーションのためのフレームワークである。
ゼロショットに挑戦する場合には,オブジェクト全体を再構成するための条件拡散モデルを学ぶ。
論文 参考訳(メタデータ) (2024-01-25T18:57:36Z) - Amodal Ground Truth and Completion in the Wild [84.54972153436466]
我々は3Dデータを用いて、実画像中の部分的に隠蔽された物体に対して、真偽のアモーダルマスクを決定するための自動パイプラインを確立する。
このパイプラインは、様々なオブジェクトカテゴリとラベルからなるアモーダル完了評価ベンチマークMP3D-Amodalを構築するために使用される。
論文 参考訳(メタデータ) (2023-12-28T18:59:41Z) - Denoising Diffusion Semantic Segmentation with Mask Prior Modeling [61.73352242029671]
本稿では,従来の識別的アプローチのセマンティックセグメンテーション品質を,デノナイズ拡散生成モデルでモデル化したマスクを用いて改善することを提案する。
市販セグメンタを用いた先行モデルの評価を行い,ADE20KとCityscapesの実験結果から,本手法が競争力のある定量的性能を実現することを示す。
論文 参考訳(メタデータ) (2023-06-02T17:47:01Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Unsupervised Object Learning via Common Fate [61.14802390241075]
ビデオから生成オブジェクトモデルを学習することは、長い問題であり、因果的シーンモデリングに必要である。
この問題を3つの簡単なサブタスクに分解し、それぞれに候補解を提供する。
提案手法は,入力ビデオのオクルージョンを超えて一般化された生成モデルを学習することができることを示す。
論文 参考訳(メタデータ) (2021-10-13T08:22:04Z) - Amodal Segmentation through Out-of-Task and Out-of-Distribution
Generalization with a Bayesian Model [19.235173141731885]
アモーダル補完は人間が容易に実行できる視覚的タスクであるが、コンピュータビジョンアルゴリズムでは難しい。
我々は、アモーダルセグメンテーションをout-of-taskおよびout-of-distribution generalization問題として定式化する。
我々のアルゴリズムは、同じ監督方法を使用する代替手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-10-25T18:01:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。