Fugu-MT 論文翻訳(概要): Autoregressive Unsupervised Image Segmentation

論文の概要: Autoregressive Unsupervised Image Segmentation

arxiv url: http://arxiv.org/abs/2007.08247v1
Date: Thu, 16 Jul 2020 10:47:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-09 23:25:30.017674
Title: Autoregressive Unsupervised Image Segmentation
Title（参考訳）: 自己回帰的教師なし画像分割
Authors: Yassine Ouali, C\'eline Hudelot, Myriam Tami
Abstract要約: 入力から構築した異なるビュー間の相互情報に基づく教師なし画像分割手法を提案する。提案手法は、教師なし画像セグメント化における最先端技術よりも優れている。
参考スコア（独自算出の注目度）: 8.894935073145252
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose a new unsupervised image segmentation approach based on mutual information maximization between different constructed views of the inputs. Taking inspiration from autoregressive generative models that predict the current pixel from past pixels in a raster-scan ordering created with masked convolutions, we propose to use different orderings over the inputs using various forms of masked convolutions to construct different views of the data. For a given input, the model produces a pair of predictions with two valid orderings, and is then trained to maximize the mutual information between the two outputs. These outputs can either be low-dimensional features for representation learning or output clusters corresponding to semantic labels for clustering. While masked convolutions are used during training, in inference, no masking is applied and we fall back to the standard convolution where the model has access to the full input. The proposed method outperforms current state-of-the-art on unsupervised image segmentation. It is simple and easy to implement, and can be extended to other visual tasks and integrated seamlessly into existing unsupervised learning methods requiring different views of the data.
Abstract（参考訳）: 本研究では,入力の異なる構成ビュー間での相互情報最大化に基づく教師なし画像分割手法を提案する。マスク付き畳み込みを用いたラスタスキャンオーダリングにおいて,過去の画素から現在の画素を予測する自己回帰生成モデルからインスピレーションを得て,様々な形態のマスク畳み込みを用いて入力に対する異なる順序付けを行い,データの異なるビューを構築することを提案する。与えられた入力に対して、モデルは2つの有効な順序付き2つの予測を生成し、2つの出力間の相互情報を最大化するように訓練される。これらの出力は、表現学習のための低次元の特徴か、クラスタリングのためのセマンティックラベルに対応する出力クラスタである。トレーニング中にマスク付き畳み込みが使用されるが、推論ではマスクは適用されず、モデルが完全な入力にアクセス可能な標準畳み込みにフォールバックする。提案手法は,教師なし画像セグメンテーションにおける最先端技術よりも優れている。実装は簡単で簡単で、他の視覚タスクにも拡張でき、データの異なるビューを必要とする既存の教師なし学習手法にシームレスに統合できる。

関連論文リスト

Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。 UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-09T06:42:49Z)
Seg-VAR: Image Segmentation with Visual Autoregressive Modeling [60.79579744943664]
本稿では,セグメンテーションを条件付き自己回帰マスク生成問題として再考する新しい枠組みを提案する。これは、差別的な学習を潜在的な学習プロセスに置き換えることによって達成される。提案手法は,(1)入力画像から潜時前処理を生成する画像エンコーダ,(2)分割マスクを離散潜時トークンにマッピングする空間認識セグレット(セグメンテーションマスクの潜時表現)エンコーダ,(3)これらの潜時マスクを再構成するデコーダの3つのコアコンポーネントを含む。
論文参考訳（メタデータ） (2025-11-16T13:36:19Z)
LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文参考訳（メタデータ） (2025-05-26T02:22:41Z)
One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。 OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文参考訳（メタデータ） (2024-11-25T12:11:05Z)
Masked Image Modeling Boosting Semi-Supervised Semantic Segmentation [38.55611683982936]
クラスごとに異なる画像領域を独立に再構成する新しいクラスワイド・マスク画像モデリングを提案する。我々は,同一クラス内のマスキングと可視部分に対応する特徴間の距離を最小化する特徴集約戦略を開発する。セマンティック空間において、正規化を強化するマスク付き画像モデリングの適用について検討する。
論文参考訳（メタデータ） (2024-11-13T16:42:07Z)
Hybrid diffusion models: combining supervised and generative pretraining for label-efficient fine-tuning of segmentation models [55.2480439325792]
そこで本研究では,第1領域における画像のデノベーションとマスク予測を同時に行うことを目的とした,新しいプレテキストタスクを提案する。提案手法を用いて事前学習したモデルを微調整すると、教師なしまたは教師なしの事前学習を用いて訓練した類似モデルの微調整よりも優れた結果が得られることを示す。
論文参考訳（メタデータ） (2024-08-06T20:19:06Z)
Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文参考訳（メタデータ） (2023-09-25T12:31:18Z)
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文参考訳（メタデータ） (2023-08-23T18:53:00Z)
A Semi-Paired Approach For Label-to-Image Translation [6.888253564585197]
ラベル・ツー・イメージ翻訳のための半教師付き(半ペア)フレームワークを初めて紹介する。半ペア画像設定では、小さなペアデータとより大きなペア画像とラベルのセットにアクセスすることができる。本稿では,この共有ネットワークのためのトレーニングアルゴリズムを提案し,非表現型クラスに着目した希少なクラスサンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-06-23T16:13:43Z)
BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文参考訳（メタデータ） (2021-05-25T04:58:51Z)
Unsupervised Image Segmentation using Mutual Mean-Teaching [12.784209596867495]
より安定した結果を得るために,Mutual Mean-Teaching (MMT) フレームワークに基づく教師なし画像分割モデルを提案する。実験結果から,提案モデルでは様々な画像の分割が可能であり,既存の手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2020-12-16T13:13:34Z)
Efficient Full Image Interactive Segmentation by Leveraging Within-image Appearance Similarity [39.17599924322882]
インタラクティブなフルイメージセマンティックセマンティックセグメンテーションのための新しいアプローチを提案する。ラベル付き画素からラベルなしピクセルへの伝搬は必ずしもクラス固有の知識を必要としない。この観測に基づいて,複数のクラスから画素ラベルを共同で伝播する手法を提案する。
論文参考訳（メタデータ） (2020-07-16T08:21:59Z)
Unsupervised Learning of Visual Features by Contrasting Cluster Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文参考訳（メタデータ） (2020-06-17T14:00:42Z)
OneGAN: Simultaneous Unsupervised Learning of Conditional Image Generation, Foreground Segmentation, and Fine-Grained Clustering [100.32273175423146]
本研究では、教師なしの方法で、条件付き画像生成装置、前景抽出とセグメンテーション、オブジェクトの削除と背景補完を同時に学習する方法を提案する。 Geneversarative Adrial Network と Variational Auto-Encoder を組み合わせることで、複数のエンコーダ、ジェネレータ、ディスクリミネータを組み合わせ、全てのタスクを一度に解くことができる。
論文参考訳（メタデータ） (2019-12-31T18:15:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。