論文の概要: gen2seg: Generative Models Enable Generalizable Instance Segmentation
- arxiv url: http://arxiv.org/abs/2505.15263v1
- Date: Wed, 21 May 2025 08:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.32069
- Title: gen2seg: Generative Models Enable Generalizable Instance Segmentation
- Title(参考訳): gen2seg: 汎用インスタンスセグメンテーションを可能にする生成モデル
- Authors: Om Khangaonkar, Hamed Pirsiavash,
- Abstract要約: カテゴリに依存しないインスタンスセグメンテーションのための安定拡散とMAE(encoder+decoder)を微調整する。
驚くべきことに、我々のモデルは強力なゼロショットの一般化を示し、微調整では見えないタイプやスタイルのオブジェクトを正確に分割する。
我々の最高のパフォーマンスモデルは、目に見えないオブジェクトタイプやスタイルで評価された場合、高度に教師されたSAMに近づき、きめ細かな構造と曖昧な境界をセグメンテーションする際にそれより優れています。
- 参考スコア(独自算出の注目度): 13.10763777346306
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: By pretraining to synthesize coherent images from perturbed inputs, generative models inherently learn to understand object boundaries and scene compositions. How can we repurpose these generative representations for general-purpose perceptual organization? We finetune Stable Diffusion and MAE (encoder+decoder) for category-agnostic instance segmentation using our instance coloring loss exclusively on a narrow set of object types (indoor furnishings and cars). Surprisingly, our models exhibit strong zero-shot generalization, accurately segmenting objects of types and styles unseen in finetuning (and in many cases, MAE's ImageNet-1K pretraining too). Our best-performing models closely approach the heavily supervised SAM when evaluated on unseen object types and styles, and outperform it when segmenting fine structures and ambiguous boundaries. In contrast, existing promptable segmentation architectures or discriminatively pretrained models fail to generalize. This suggests that generative models learn an inherent grouping mechanism that transfers across categories and domains, even without internet-scale pretraining. Code, pretrained models, and demos are available on our website.
- Abstract(参考訳): 摂動入力からコヒーレントなイメージを事前学習することにより、生成モデルは本質的にオブジェクト境界やシーン構成を理解することを学習する。
これらの生成表現を汎用的な知覚組織にどのように再利用するか?
我々は、狭い種類のオブジェクト(室内家具や車)のみに限って、インスタンスカラー化損失を利用したカテゴリ非依存のインスタンスセグメンテーションのために、安定拡散とMAE(encoder+decoder)を微調整する。
驚いたことに、我々のモデルは強力なゼロショットの一般化を示し、微調整で見えない型やスタイルのオブジェクトを正確にセグメンテーションしています(そして多くの場合、MAEのImageNet-1Kも事前訓練しています)。
我々の最高のパフォーマンスモデルは、目に見えないオブジェクトタイプやスタイルで評価された場合、高度に教師されたSAMに近づき、きめ細かな構造と曖昧な境界をセグメンテーションする際にそれより優れています。
対照的に、既存の素早いセグメンテーションアーキテクチャや差別的に事前訓練されたモデルは一般化に失敗する。
このことは、生成モデルは、インターネット規模の事前訓練がなくても、カテゴリやドメイン間で伝達する固有のグループ化メカニズムを学ぶことを示唆している。
コード、事前トレーニングされたモデル、デモは、私たちのWebサイトで公開されています。
関連論文リスト
- Towards Category Unification of 3D Single Object Tracking on Point Clouds [10.64650098374183]
カテゴリー特化モデルは、シームズや動き中心のパラダイムに関わらず、3次元単体追跡(SOT)において非常に価値のある手法である。
本稿ではまず,共有モデルパラメータを持つ単一ネットワークを用いて,すべてのカテゴリにまたがるオブジェクトを同時に追跡できる統一モデルを提案する。
論文 参考訳(メタデータ) (2024-01-20T10:38:28Z) - Self-Supervised Instance Segmentation by Grasping [84.2469669256257]
我々は、画像の前後から把握対象をセグメント化するためのグリップセグメンテーションモデルを学習する。
セグメント化されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。
本稿では,従来の画像サブトラクション手法と比較して,グリップセグメント化モデルにより,グリップオブジェクトをセグメント化する場合の誤差が5倍になることを示す。
論文 参考訳(メタデータ) (2023-05-10T16:51:36Z) - Context-Conditional Adaptation for Recognizing Unseen Classes in Unseen
Domains [48.17225008334873]
我々は,COCOA (COntext Conditional Adaptive) Batch-Normalization と統合された特徴生成フレームワークを提案する。
生成されたビジュアル機能は、基礎となるデータ分散をよりよくキャプチャすることで、テスト時に見つからないクラスやドメインに一般化できます。
確立した大規模ベンチマークであるDomainNetに対する我々のアプローチを徹底的に評価し、分析する。
論文 参考訳(メタデータ) (2021-07-15T17:51:16Z) - Semi-Supervised Few-Shot Classification with Deep Invertible Hybrid
Models [4.189643331553922]
半教師付き小ショット分類のための潜在空間レベルで識別学習と生成学習を統合するディープ・インバーチブルハイブリッドモデルを提案する。
我々の主な独創性は、これらのコンポーネントを潜在空間レベルで統合することであり、過度な適合を防ぐのに有効である。
論文 参考訳(メタデータ) (2021-05-22T05:55:16Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z) - Commonality-Parsing Network across Shape and Appearance for Partially
Supervised Instance Segmentation [71.59275788106622]
そこで本稿では,マスク付分類から新しい分類へ一般化可能な,クラス非依存の共通性について考察する。
本モデルでは,COCOデータセット上のサンプルセグメンテーションにおける部分教師付き設定と少数ショット設定の両方において,最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-07-24T07:23:44Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。