論文の概要: LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data
- arxiv url: http://arxiv.org/abs/2208.14889v4
- Date: Mon, 24 Apr 2023 08:14:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 23:56:45.204719
- Title: LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data
- Title(参考訳): LANIT: ラベルなしデータのための言語駆動型画像変換
- Authors: Jihye Park, Sunwoo Kim, Soohyun Kim, Seokju Cho, Jaejun Yoo, Youngjung
Uh, Seungryong Kim
- Abstract要約: 我々はLANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。
画像と属性の類似性はサンプル単位のドメインラベルを示す。
いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。
- 参考スコア(独自算出の注目度): 39.421312439022316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing techniques for image-to-image translation commonly have suffered
from two critical problems: heavy reliance on per-sample domain annotation
and/or inability of handling multiple attributes per image. Recent
truly-unsupervised methods adopt clustering approaches to easily provide
per-sample one-hot domain labels. However, they cannot account for the
real-world setting: one sample may have multiple attributes. In addition, the
semantics of the clusters are not easily coupled to the human understanding. To
overcome these, we present a LANguage-driven Image-to-image Translation model,
dubbed LANIT. We leverage easy-to-obtain candidate attributes given in texts
for a dataset: the similarity between images and attributes indicates
per-sample domain labels. This formulation naturally enables multi-hot label so
that users can specify the target domain with a set of attributes in language.
To account for the case that the initial prompts are inaccurate, we also
present prompt learning. We further present domain regularization loss that
enforces translated images be mapped to the corresponding domain. Experiments
on several standard benchmarks demonstrate that LANIT achieves comparable or
superior performance to existing models.
- Abstract(参考訳): 既存の画像から画像への翻訳技術は、サンプル単位のドメインアノテーションへの依存度と、画像ごとに複数の属性を扱うことができないという2つの重大な問題に悩まされている。
最近の真に教師のない手法は、サンプル単位のワンホットドメインラベルを容易に提供するためのクラスタリングアプローチを採用している。
しかし、それらは現実世界の設定を説明できない:あるサンプルは複数の属性を持つかもしれない。
加えて、クラスタのセマンティクスは人間の理解と簡単には結合されない。
これらを克服するために、LANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。
画像と属性の類似性は、サンプル毎のドメインラベルを示しています。
この定式化は自然にマルチホットラベルを可能にするので、ユーザは言語内の属性のセットでターゲットドメインを指定することができる。
初期プロンプトが不正確である場合を考慮して,プロンプト学習も提示する。
さらに,翻訳画像の対応領域へのマッピングを強制する領域正規化損失についても述べる。
いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。
関連論文リスト
- WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - Rethinking the Truly Unsupervised Image-to-Image Translation [29.98784909971291]
教師なし画像画像変換モデル(TUNIT)は、画像領域を分離し、入力画像を推定領域に変換する。
実験結果から、TUNITはフルラベルでトレーニングされたセットレベルの教師付きモデルと同等またはそれ以上のパフォーマンスを達成することが示された。
TUNITはラベル付きデータで簡単にセミ教師付き学習に拡張できる。
論文 参考訳(メタデータ) (2020-06-11T15:15:12Z) - Semi-supervised Learning for Few-shot Image-to-Image Translation [89.48165936436183]
本稿では,SEMITと呼ばれる画像翻訳のための半教師付き手法を提案する。
提案手法は,ソースラベルの10%以下を用いて,4つの異なるデータセットに対して優れた結果を得る。
論文 参考訳(メタデータ) (2020-03-30T22:46:49Z) - GMM-UNIT: Unsupervised Multi-Domain and Multi-Modal Image-to-Image
Translation via Attribute Gaussian Mixture Modeling [66.50914391679375]
unsupervised image-to-image translation (UNIT) は、未経験の訓練画像を用いて、複数の視覚領域間のマッピングを学習することを目的としている。
最近の研究は、複数のドメインで顕著な成功を示しているが、それらは2つの主要な制限に悩まされている。
GMM-UNITという,空間にGMMを組み込むコンテンツ属性不整合表現に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-03-15T10:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。