Fugu-MT 論文翻訳(概要): Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting

論文の概要: Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting

arxiv url: http://arxiv.org/abs/2403.18186v2
Date: Thu, 10 Oct 2024 23:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:39:33.374773
Title: Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting
Title（参考訳）: 暗さに目を向けるな - 多元的画像インペイントのための潜在コード
Authors: Haiwei Chen, Yajie Zhao,
Abstract要約: 本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。
参考スコア（独自算出の注目度）: 8.572133295533643
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a method for large-mask pluralistic image inpainting based on the generative framework of discrete latent codes. Our method learns latent priors, discretized as tokens, by only performing computations at the visible locations of the image. This is realized by a restrictive partial encoder that predicts the token label for each visible block, a bidirectional transformer that infers the missing labels by only looking at these tokens, and a dedicated synthesis network that couples the tokens with the partial image priors to generate coherent and pluralistic complete image even under extreme mask settings. Experiments on public benchmarks validate our design choices as the proposed method outperforms strong baselines in both visual quality and diversity metrics.
Abstract（参考訳）: 本稿では,離散潜在符号の生成枠組みに基づく大規模マスク多元画像の描画手法を提案する。本手法は,画像の可視な場所でのみ計算を行うことで,トークンとして識別された遅延先行を学習する。これは、各可視ブロックのトークンラベルを予測する制限された部分エンコーダと、これらのトークンのみを見て欠落ラベルを推測する双方向変換器と、極端マスク設定下であっても、トークンと部分画像とを結合してコヒーレントかつ多元的な完全画像を生成する専用合成ネットワークとにより実現される。パブリックベンチマークの実験では、提案手法が視覚的品質と多様性の指標の両方において強いベースラインを上回り、我々の設計選択を検証する。

関連論文リスト

Composable Visual Tokenizers with Generator-Free Diagnostics of Learnability [30.139325285692568]
CompTokは、トークンを合成性のために強化した視覚的トークン化者を学ぶためのトレーニングフレームワークである。 InfoGANスタイルの目的を用いて認識モデルを訓練し,拡散復号器の条件に使用するトークンを予測する。実験では、CompTokが両方のメトリクスを改善するとともに、クラス条件付き生成のための最先端のジェネレータをサポートできることが示されている。
論文参考訳（メタデータ） (2026-02-03T10:02:51Z)
Towards Generalized Multi-Image Editing for Unified Multimodal Models [56.620038824933566]
統一マルチモーダルモデル(UMM)は、マルチモーダル理解と生成を統合する。 UMMは、複数の入力画像にまたがる詳細を参照する場合、視覚的一貫性の維持と視覚的手がかりの曖昧さに制限される。画像の同一性を明確に識別し、可変入力数に一般化するUMMのためのスケーラブルなマルチイメージ編集フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-09T06:42:49Z)
Seg-VAR: Image Segmentation with Visual Autoregressive Modeling [60.79579744943664]
本稿では,セグメンテーションを条件付き自己回帰マスク生成問題として再考する新しい枠組みを提案する。これは、差別的な学習を潜在的な学習プロセスに置き換えることによって達成される。提案手法は,(1)入力画像から潜時前処理を生成する画像エンコーダ,(2)分割マスクを離散潜時トークンにマッピングする空間認識セグレット(セグメンテーションマスクの潜時表現)エンコーダ,(3)これらの潜時マスクを再構成するデコーダの3つのコアコンポーネントを含む。
論文参考訳（メタデータ） (2025-11-16T13:36:19Z)
Highly Compressed Tokenizer Can Generate Without Training [0.5033155053523042]
1D画像トークン化器は、画像を32個の離散トークンの高度に圧縮された1次元シーケンスとして表現する。ベクトル量子化による1次元トークン化器によって達成される高い圧縮により,画像の編集と生成が可能であることがわかった。本手法は, 画像編集における画像の塗り絵やテキストガイドに応用でき, 生成モデルの訓練を必要とせず, 多様な実例を生成できる。
論文参考訳（メタデータ） (2025-06-09T21:45:03Z)
Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文参考訳（メタデータ） (2024-02-22T06:47:44Z)
Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文参考訳（メタデータ） (2023-12-04T18:58:40Z)
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文参考訳（メタデータ） (2023-07-13T17:46:42Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-05-23T12:30:04Z)
Spatially Multi-conditional Image Generation [80.04130168156792]
本稿では,マルチ条件画像生成の問題に対処する新しいニューラルアーキテクチャを提案する。提案手法は, 利用可能なラベルを入力トークンとして受信する, 画素単位のトランスフォーマー型アーキテクチャを用いる。 3つのベンチマークデータセットに対する実験により,提案手法の最先端および比較ベースラインに対する明らかな優位性を示した。
論文参考訳（メタデータ） (2022-03-25T17:57:13Z)
GANSeg: Learning to Segment by Unsupervised Hierarchical Image Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文参考訳（メタデータ） (2021-12-02T07:57:56Z)
Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文参考訳（メタデータ） (2021-11-05T12:57:50Z)
Few-shot Semantic Image Synthesis Using StyleGAN Prior [8.528384027684192]
本稿では,STYPEGANを用いたセマンティックマスクの擬似ラベリングを行うトレーニング戦略を提案する。私たちの重要なアイデアは、semantic masksの例から、スタイルガン機能と各セマンティッククラスの単純なマッピングを構築することです。擬似セマンティックマスクは、ピクセル整列マスクを必要とする従来のアプローチでは粗いかもしれないが、我々のフレームワークは、濃密なセマンティックマスクだけでなく、ランドマークやスクリブルのようなスパース入力から高品質な画像を合成することができる。
論文参考訳（メタデータ） (2021-03-27T11:04:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。