論文の概要: A Generalist Framework for Panoptic Segmentation of Images and Videos
- arxiv url: http://arxiv.org/abs/2210.06366v1
- Date: Wed, 12 Oct 2022 16:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:14:11.098679
- Title: A Generalist Framework for Panoptic Segmentation of Images and Videos
- Title(参考訳): 画像と映像のパノプティブ・セグメンテーションのための一般フレームワーク
- Authors: Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet
- Abstract要約: 我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
アナログビットに基づく拡散モデルを用いて、単純で汎用的なアーキテクチャと損失関数を備えたパノスコープマスクをモデル化する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
- 参考スコア(独自算出の注目度): 82.9360983789214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic segmentation assigns semantic and instance ID labels to every pixel
of an image. As permutations of instance IDs are also valid solutions, the task
requires learning of high-dimensional one-to-many mapping. As a result,
state-of-the-art approaches use customized architectures and task-specific loss
functions. We formulate panoptic segmentation as a discrete data generation
problem, without relying on inductive bias of the task. A diffusion model based
on analog bits is used to model panoptic masks, with a simple, generic
architecture and loss function. By simply adding past predictions as a
conditioning signal, our method is capable of modeling video (in a streaming
setting) and thereby learns to track object instances automatically. With
extensive experiments, we demonstrate that our generalist approach can perform
competitively to state-of-the-art specialist methods in similar settings.
- Abstract(参考訳): panoptic segmentationはイメージの各ピクセルにセマンティックidとインスタンスidラベルを割り当てる。
インスタンスIDの置換も有効な解であるため、タスクは高次元の1対多マッピングの学習を必要とする。
その結果、最先端のアプローチはカスタマイズされたアーキテクチャとタスク固有の損失関数を使用する。
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティックセグメンテーションを定式化する。
アナログビットに基づく拡散モデルは、単純で汎用的なアーキテクチャと損失関数を持つパンオプティカルマスクのモデル化に使用される。
条件付け信号として過去の予測を加えるだけで、ビデオ(ストリーミング設定)をモデル化し、オブジェクトのインスタンスを自動的に追跡することが可能になる。
広範な実験により、我々のジェネラリスト的アプローチは、同様の設定で最先端のスペシャリスト手法と競合できることを示した。
関連論文リスト
- A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask
Inpainting [3.0978367490767624]
この研究は安定拡散の上に構築され、汎視的セグメンテーションに対する潜時拡散アプローチを提案する。
トレーニングプロセスは,(1)部分分割マスクを潜時空間に投影する浅層オートエンコーダの訓練,(2)潜時空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。
生成モデルを使用することで、インタラクティブなセグメンテーションに応用できるマスクの完成や塗装の探索が解き放たれる。
論文 参考訳(メタデータ) (2024-01-18T18:59:19Z) - Variable Radiance Field for Real-Life Category-Specifc Reconstruction
from Single Image [27.290232027686237]
本稿では,カメラパラメータが未知の単一画像からカテゴリ固有のオブジェクトを再構成できる新しいフレームワークを提案する。
マルチスケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化する。
また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-06-08T12:12:02Z) - Self-Supervised Instance Segmentation by Grasping [84.2469669256257]
我々は、画像の前後から把握対象をセグメント化するためのグリップセグメンテーションモデルを学習する。
セグメント化されたオブジェクトを使用して、元のシーンからオブジェクトを"カット"し、それらを新しいシーンに"ペースト"することで、インスタンスの監視を生成する。
本稿では,従来の画像サブトラクション手法と比較して,グリップセグメント化モデルにより,グリップオブジェクトをセグメント化する場合の誤差が5倍になることを示す。
論文 参考訳(メタデータ) (2023-05-10T16:51:36Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - Structure-Guided Image Completion with Image-level and Object-level
Semantic Discriminators [118.6132221271663]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Hierarchical Lov\'asz Embeddings for Proposal-free Panoptic Segmentation [25.065380488503262]
State-of-the-the-art panoptic segmentation法は、タスクごとに異なるストリームを持つ複雑なモデルを使用する。
本稿では,インスタンスレベルとカテゴリレベルの識別情報を同時に符号化する画素単位の特徴ベクトルである階層型Lov'asz Embeddingsを提案する。
提案手法は,Cityscapes,COCO,Mapillary Vistasにおける従来の提案不要のパノプティクスセグメンテーション法と比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-06-08T17:43:54Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - Unsupervised Layered Image Decomposition into Object Prototypes [39.20333694585477]
自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。
我々はまず,標準マルチオブジェクト合成ベンチマークにおける技術状況と同等の結果を提供することで,我々のアプローチを検証した。
次に、クラスタリング(SVHN、GTSRB)、コセグメンテーション(Weizmann Horse)、フィルタされていないソーシャルネットワークイメージからのオブジェクト発見を含むタスクにおける実画像へのモデルの適用性を示す。
論文 参考訳(メタデータ) (2021-04-29T18:02:01Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。