論文の概要: Informative Sample Mining Network for Multi-Domain Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2001.01173v4
- Date: Sun, 20 Sep 2020 09:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 08:02:37.896387
- Title: Informative Sample Mining Network for Multi-Domain Image-to-Image
Translation
- Title(参考訳): マルチドメイン画像-画像変換のためのインフォームティブサンプルマイニングネットワーク
- Authors: Jie Cao, Huaibo Huang, Yi Li, Ran He, Zhenan Sun
- Abstract要約: 本稿では,画像から画像への翻訳作業において,サンプル選択戦略の改善が有効であることを示す。
本稿では,サンプルの硬さを抑えつつ,サンプルの硬さを抑えるための新しい多段階サンプルトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 101.01649070998532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of multi-domain image-to-image translation has been
significantly improved by recent progress in deep generative models. Existing
approaches can use a unified model to achieve translations between all the
visual domains. However, their outcomes are far from satisfying when there are
large domain variations. In this paper, we reveal that improving the sample
selection strategy is an effective solution. To select informative samples, we
dynamically estimate sample importance during the training of Generative
Adversarial Networks, presenting Informative Sample Mining Network. We
theoretically analyze the relationship between the sample importance and the
prediction of the global optimal discriminator. Then a practical importance
estimation function for general conditions is derived. Furthermore, we propose
a novel multi-stage sample training scheme to reduce sample hardness while
preserving sample informativeness. Extensive experiments on a wide range of
specific image-to-image translation tasks are conducted, and the results
demonstrate our superiority over current state-of-the-art methods.
- Abstract(参考訳): 近年の深部生成モデルの進歩により,多領域画像・画像翻訳の性能が大幅に向上した。
既存のアプローチでは、すべての視覚領域間の翻訳を実現するために統一モデルを使用することができる。
しかし、その成果はドメインのバリエーションが大きい場合の満足度にはほど遠い。
本稿では,サンプル選択戦略の改善が有効な解決策であることを明らかにする。
Informative Sample Mining Network を提示し、情報的サンプルを選択するために、生成逆数ネットワークのトレーニング中のサンプル重要度を動的に推定する。
我々は,標本の重要度と大域的最適判別器の予測との関係を理論的に分析する。
そして、一般条件に対する実用的重要度推定関数を導出する。
さらに,サンプル情報を維持しつつ,サンプルハードネスを低減させる多段階サンプルトレーニング手法を提案する。
様々な画像から画像への翻訳タスクに関する広範囲な実験を行い,現状の手法よりも優れていることを示す。
関連論文リスト
- Integrated Image-Text Based on Semi-supervised Learning for Small Sample Instance Segmentation [1.3157419797035321]
本稿では,既存情報の利用を最大化する観点から,新しいサンプルインスタンス分割法を提案する。
まず、ラベルのないデータを学習して擬似ラベルを生成し、利用可能なサンプルの数を増やすことで、モデルが完全に活用するのに役立つ。
第二に、テキストと画像の特徴を統合することにより、より正確な分類結果を得ることができる。
論文 参考訳(メタデータ) (2024-10-21T14:44:08Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - Denoising Diffusion Probabilistic Models for Generation of Realistic
Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。
提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文 参考訳(メタデータ) (2023-01-02T14:17:08Z) - Conditional Variational Autoencoder for Learned Image Reconstruction [5.487951901731039]
本研究では,未知画像の後部分布を問合せ観測で近似する新しいフレームワークを開発する。
暗黙のノイズモデルと先行処理を処理し、データ生成プロセス(フォワード演算子)を組み込み、学習された再構成特性は異なるデータセット間で転送可能である。
論文 参考訳(メタデータ) (2021-10-22T10:02:48Z) - An Unsupervised Sampling Approach for Image-Sentence Matching Using
Document-Level Structural Information [64.66785523187845]
教師なし画像文マッチングの問題に焦点をあてる。
既存の研究では、文書レベルの構造情報を用いて、モデルトレーニングの正および負のインスタンスをサンプリングする方法が検討されている。
そこで本研究では,追加の文書内画像-文対を正あるいは負のサンプルとして選択する新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T05:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。