論文の概要: LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data
- arxiv url: http://arxiv.org/abs/2208.14889v1
- Date: Wed, 31 Aug 2022 14:30:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:03:02.515945
- Title: LANIT: Language-Driven Image-to-Image Translation for Unlabeled Data
- Title(参考訳): LANIT: ラベルなしデータのための言語駆動型画像変換
- Authors: Jihye Park, Soohyun Kim, Sunwoo Kim, Jaejun Yoo, Youngjung Uh,
Seungryong Kim
- Abstract要約: 我々はLANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。
データセットのテキストで与えられる候補ドメインアノテーションを利用して、トレーニング中に共同で最適化します。
いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。
- 参考スコア(独自算出の注目度): 41.771446357594456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing techniques for image-to-image translation commonly have suffered
from two critical problems: heavy reliance on per-sample domain annotation
and/or inability of handling multiple attributes per image. Recent methods
adopt clustering approaches to easily provide per-sample annotations in an
unsupervised manner. However, they cannot account for the real-world setting;
one sample may have multiple attributes. In addition, the semantics of the
clusters are not easily coupled to human understanding. To overcome these, we
present a LANguage-driven Image-to-image Translation model, dubbed LANIT. We
leverage easy-to-obtain candidate domain annotations given in texts for a
dataset and jointly optimize them during training. The target style is
specified by aggregating multi-domain style vectors according to the multi-hot
domain assignments. As the initial candidate domain texts might be inaccurate,
we set the candidate domain texts to be learnable and jointly fine-tune them
during training. Furthermore, we introduce a slack domain to cover samples that
are not covered by the candidate domains. Experiments on several standard
benchmarks demonstrate that LANIT achieves comparable or superior performance
to the existing model.
- Abstract(参考訳): 既存の画像から画像への翻訳技術は、サンプル単位のドメインアノテーションへの依存度と、画像ごとに複数の属性を扱うことができないという2つの重大な問題に悩まされている。
最近の手法ではクラスタリングアプローチを採用して、教師なしの方法でサンプル単位のアノテーションを容易に提供している。
しかし、実世界の設定は説明できない。あるサンプルには複数の属性があるかもしれない。
加えて、クラスタのセマンティクスは人間の理解と簡単には結合されない。
これらを克服するために、LANITと呼ばれるLANguage-driven Image-to-image Translationモデルを提案する。
データセットのテキストで与えられる候補ドメインアノテーションを利用して、トレーニング中に共同で最適化します。
ターゲットスタイルは、マルチホットドメイン割り当てに従ってマルチドメインスタイルのベクターを集約することで指定される。
初期候補ドメインテキストが不正確である可能性があるため、候補ドメインテキストを学習可能とし、トレーニング中に共同で微調整する。
さらに、候補ドメインでカバーされていないサンプルをカバーするために、slackドメインを導入する。
いくつかの標準ベンチマークの実験では、LANITは既存のモデルに匹敵する、あるいは優れた性能を達成している。
関連論文リスト
- WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - Disentangled Unsupervised Image Translation via Restricted Information
Flow [61.44666983942965]
多くの最先端のメソッドは、所望の共有vs固有の分割をアーキテクチャにハードコードする。
帰納的アーキテクチャバイアスに依存しない新しい手法を提案する。
提案手法は,2つの合成データセットと1つの自然なデータセットに対して一貫した高い操作精度を実現する。
論文 参考訳(メタデータ) (2021-11-26T00:27:54Z) - Rethinking the Truly Unsupervised Image-to-Image Translation [29.98784909971291]
教師なし画像画像変換モデル(TUNIT)は、画像領域を分離し、入力画像を推定領域に変換する。
実験結果から、TUNITはフルラベルでトレーニングされたセットレベルの教師付きモデルと同等またはそれ以上のパフォーマンスを達成することが示された。
TUNITはラベル付きデータで簡単にセミ教師付き学習に拡張できる。
論文 参考訳(メタデータ) (2020-06-11T15:15:12Z) - Semi-supervised Learning for Few-shot Image-to-Image Translation [89.48165936436183]
本稿では,SEMITと呼ばれる画像翻訳のための半教師付き手法を提案する。
提案手法は,ソースラベルの10%以下を用いて,4つの異なるデータセットに対して優れた結果を得る。
論文 参考訳(メタデータ) (2020-03-30T22:46:49Z) - GMM-UNIT: Unsupervised Multi-Domain and Multi-Modal Image-to-Image
Translation via Attribute Gaussian Mixture Modeling [66.50914391679375]
unsupervised image-to-image translation (UNIT) は、未経験の訓練画像を用いて、複数の視覚領域間のマッピングを学習することを目的としている。
最近の研究は、複数のドメインで顕著な成功を示しているが、それらは2つの主要な制限に悩まされている。
GMM-UNITという,空間にGMMを組み込むコンテンツ属性不整合表現に基づく手法を提案する。
論文 参考訳(メタデータ) (2020-03-15T10:18:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。