Fugu-MT 論文翻訳(概要): Semantic Augmentation in Images using Language

論文の概要: Semantic Augmentation in Images using Language

arxiv url: http://arxiv.org/abs/2404.02353v1
Date: Tue, 2 Apr 2024 22:54:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 19:09:09.799424
Title: Semantic Augmentation in Images using Language
Title（参考訳）: 言語を用いた画像のセマンティック拡張
Authors: Sahiti Yerramilli, Jayant Sravan Tamarapalli, Tanmay Girish Kulkarni, Jonathan Francis, Eric Nyberg,
Abstract要約: 本稿では,既存のデータセットを拡張するために生成された画像を利用する手法を提案する。本稿では,深層学習モデルの領域外一般化能力を改善するために,効果的なデータ拡張のための様々な戦略について検討する。
参考スコア（独自算出の注目度）: 6.642383216055697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep Learning models are incredibly data-hungry and require very large labeled datasets for supervised learning. As a consequence, these models often suffer from overfitting, limiting their ability to generalize to real-world examples. Recent advancements in diffusion models have enabled the generation of photorealistic images based on textual inputs. Leveraging the substantial datasets used to train these diffusion models, we propose a technique to utilize generated images to augment existing datasets. This paper explores various strategies for effective data augmentation to improve the out-of-domain generalization capabilities of deep learning models.
Abstract（参考訳）: ディープラーニングモデルは信じられないほどデータ不足であり、教師付き学習には非常に大きなラベル付きデータセットが必要です。その結果、これらのモデルはしばしばオーバーフィットに悩まされ、現実世界の例に一般化する能力に制限される。近年の拡散モデルの発展により,テキスト入力に基づくフォトリアリスティック画像の生成が可能になった。そこで本研究では,これらの拡散モデルのトレーニングに使用する大量のデータセットを活用し,既存のデータセットを拡張するために生成された画像を利用する手法を提案する。本稿では,深層学習モデルの領域外一般化能力を改善するために,効果的なデータ拡張のための様々な戦略について検討する。

関連論文リスト

GMAIL: Generative Modality Alignment for generated Image Learning [51.071351994330605]
本稿では,生成画像の識別のための新しいフレームワークGMAILを提案する。我々のフレームワークは様々な視覚言語モデルに容易に組み込むことができ、広範囲にわたる実験を通してその有効性を示す。
論文参考訳（メタデータ） (2026-02-17T05:40:25Z)
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis [28.198808978074126]
本稿では、条件付き生成モデルのファミリーであり、事前学習された潜伏拡散モデルから知識を抽出する微調整プロトコルであるMarigoldを紹介する。 Marigoldは、トレーニング済みの潜在拡散モデルのアーキテクチャを最小限に修正し、わずか数日で1つのGPU上で小さな合成データセットをトレーニングし、最先端のゼロショット一般化を実証する。
論文参考訳（メタデータ） (2025-05-14T13:07:03Z)
FoundIR: Unleashing Million-scale Training Data to Advance Foundation Models for Image Restoration [66.61201445650323]
既存の手法は現実のシナリオにおける一般化ボトルネックに悩まされる。既存のトレーニングデータに対して,2つの大きなメリットがある,100万規模のデータセットをコントリビュートしています。実世界のシナリオにおいて,より広範囲の復元作業に対処するために,ロバストなモデルFoundIRを提案する。
論文参考訳（メタデータ） (2024-12-02T12:08:40Z)
Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model [5.57325257338134]
従来のデータ拡張方法は、ハイレベルなセマンティック属性を変更することはできない。画像から画像への変換をパラメータ化するためのテキスト間拡散モデルを提案する。我々は、元のデータセットから実際のオブジェクトのインスタンスを消去し、削除されたリージョンで同様の意味を持つ新しいインスタンスを生成することで、この目標を達成する。
論文参考訳（メタデータ） (2024-09-30T10:21:54Z)
Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文参考訳（メタデータ） (2024-06-19T08:07:14Z)
Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文参考訳（メタデータ） (2024-06-08T10:43:49Z)
YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文参考訳（メタデータ） (2024-04-08T16:51:19Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文参考訳（メタデータ） (2023-12-12T14:45:45Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
Image retrieval outperforms diffusion models on data augmentation [36.559967424331695]
拡散モデルは、分類などの下流タスクのためのトレーニングデータセットを強化するために提案されている。強化のために事前学習プロセスの追加データを直接利用して、改善を十分に一般化するかどうかは不明だ。ターゲットデータに対する拡散モデルのパーソナライズは、より単純なプロンプト戦略より優れている。しかし,拡散モデルの事前学習データのみを用いることで,より強力な下流性能が得られる。
論文参考訳（メタデータ） (2023-04-20T12:21:30Z)
Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文参考訳（メタデータ） (2023-02-07T20:42:28Z)
Denoising Diffusion Probabilistic Models for Generation of Realistic Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文参考訳（メタデータ） (2023-01-02T14:17:08Z)
A general approach to bridge the reality-gap [0.0]
これを回避するための一般的なアプローチは、大量のラベル付きデータを持つ既存の類似したデータセットを活用することである。本稿では,任意の画像を正規分布へ変換する一般変換学習を提案する。この変換は教師なしのシステムで訓練され、データの増大を利用して画像の非標準的な例を生成する。
論文参考訳（メタデータ） (2020-09-03T18:19:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。