論文の概要: Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting
- arxiv url: http://arxiv.org/abs/2410.08612v1
- Date: Fri, 11 Oct 2024 08:27:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 22:54:46.344956
- Title: Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting
- Title(参考訳): Synth-SONAR:Dual Diffusion ModelとGPT Promptingによる多様性とリアリズムの強化によるソナー画像合成
- Authors: Purushothaman Natarajan, Kamal Basha, Athira Nambiar,
- Abstract要約: 本研究では,新しいソナー画像合成フレームワーク,Synth-SONARを提案する。
まず、ジェネレーティブAIベースのスタイルインジェクション技術と、公開されている実/シミュレーションデータを統合する。
第二に、二重テキスト条件ソナー拡散モデル階層は、粗くきめ細かなソナー画像を品質と多様性を向上して合成する。
第3に、高レベル(粗度)と低レベル(詳細)のテキストベースのソナー生成手法は、視覚言語モデル(VLM)とGPTプロンプトで利用可能な高度な意味情報を活用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sonar image synthesis is crucial for advancing applications in underwater exploration, marine biology, and defence. Traditional methods often rely on extensive and costly data collection using sonar sensors, jeopardizing data quality and diversity. To overcome these limitations, this study proposes a new sonar image synthesis framework, Synth-SONAR leveraging diffusion models and GPT prompting. The key novelties of Synth-SONAR are threefold: First, by integrating Generative AI-based style injection techniques along with publicly available real/simulated data, thereby producing one of the largest sonar data corpus for sonar research. Second, a dual text-conditioning sonar diffusion model hierarchy synthesizes coarse and fine-grained sonar images with enhanced quality and diversity. Third, high-level (coarse) and low-level (detailed) text-based sonar generation methods leverage advanced semantic information available in visual language models (VLMs) and GPT-prompting. During inference, the method generates diverse and realistic sonar images from textual prompts, bridging the gap between textual descriptions and sonar image generation. This marks the application of GPT-prompting in sonar imagery for the first time, to the best of our knowledge. Synth-SONAR achieves state-of-the-art results in producing high-quality synthetic sonar datasets, significantly enhancing their diversity and realism.
- Abstract(参考訳): ソナー画像合成は水中探査、海洋生物学、防衛における応用の進展に不可欠である。
従来の手法は、ソナーセンサーを使ってデータ品質と多様性を危険にさらす、広範囲で高価なデータ収集に依存していることが多い。
これらの制約を克服するために,拡散モデルとGPTプロンプトを利用した新しいソナー画像合成フレームワーク,Synth-SONARを提案する。
まず、生成AIベースのスタイルインジェクション技術と、公開されている実/シミュレーションデータを統合することで、ソナー研究のための最大のソナーデータコーパスの1つを生成する。
第二に、二重テキスト条件ソナー拡散モデル階層は、粗くきめ細かなソナー画像を品質と多様性を向上して合成する。
第3に、高レベル(粗度)と低レベル(詳細)のテキストベースのソナー生成手法は、視覚言語モデル(VLM)とGPTプロンプトで利用可能な高度な意味情報を活用する。
推測中,本手法はテキストのプロンプトから多彩でリアルなソナー画像を生成し,テキスト記述とソナー画像生成のギャップを埋める。
このことは、私たちの知る限り、初めてソナー画像にGPTプロンプティングを応用したことを意味する。
Synth-SONARは高品質な合成ソナーデータセットの作成において最先端の結果を達成し、その多様性とリアリズムを著しく向上させる。
関連論文リスト
- Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - DiffuVST: Narrating Fictional Scenes with Global-History-Guided
Denoising Models [6.668241588219693]
ビジュアルなストーリーテリングは、現実のイメージを超えてますます求められている。
一般的に自己回帰デコーダを使用する現在の技術は、推論速度が低く、合成シーンには適していない。
本稿では,一連の視覚的記述を単一条件記述プロセスとしてモデル化する拡散型システムDiffuVSTを提案する。
論文 参考訳(メタデータ) (2023-12-12T08:40:38Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - Text-driven Visual Synthesis with Latent Diffusion Prior [37.736313030226654]
本稿では,様々な視覚合成タスクにおいて,遅延拡散モデルを用いた画像先行処理の汎用的手法を提案する。
提案手法の有効性を,テキストから3D,スタイルGAN適応,階層画像編集の3つの異なるアプリケーションで実証する。
論文 参考訳(メタデータ) (2023-02-16T18:59:58Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。