論文の概要: GANji: A Framework for Introductory AI Image Generation
- arxiv url: http://arxiv.org/abs/2509.24128v1
- Date: Sun, 28 Sep 2025 23:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.650509
- Title: GANji: A Framework for Introductory AI Image Generation
- Title(参考訳): GANji:AI画像生成入門フレームワーク
- Authors: Chandon Hamel, Mike Busch,
- Abstract要約: 本稿では,基礎となるAI画像生成手法をベンチマークするフレームワークであるGANjiを紹介する。
可変オートエンコーダ(VAE)、GAN(Generative Adrial Network)、DDPM(Denoising Diffusion Probabilistic Model)の性能を体系的に比較する。
その結果、DDPMはFr'echet Inception Distance(FID)スコアが26.2であるのに対し、サンプリング時間は他のモデルよりも2,000倍以上遅いことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The comparative study of generative models often requires significant computational resources, creating a barrier for researchers and practitioners. This paper introduces GANji, a lightweight framework for benchmarking foundational AI image generation techniques using a dataset of 10,314 Japanese Kanji characters. It systematically compares the performance of a Variational Autoencoder (VAE), a Generative Adversarial Network (GAN), and a Denoising Diffusion Probabilistic Model (DDPM). The results demonstrate that while the DDPM achieves the highest image fidelity, with a Fr\'echet Inception Distance (FID) score of 26.2, its sampling time is over 2,000 times slower than the other models. The GANji framework is an effective and accessible tool for revealing the fundamental trade-offs between model architecture, computational cost, and visual quality, making it ideal for both educational and research purposes.
- Abstract(参考訳): 生成モデルの比較研究は、しばしば重要な計算資源を必要とし、研究者や実践者にとって障壁となる。
本稿では,日本語漢字10,314文字のデータセットを用いて,基礎的AI画像生成手法をベンチマークする軽量フレームワークであるGANjiを紹介する。
可変オートエンコーダ(VAE)、GAN(Generative Adversarial Network)、DDPM(Denoising Diffusion Probabilistic Model)の性能を体系的に比較する。
その結果、DDPMはFr'echet Inception Distance(FID)スコアが26.2であるのに対し、サンプリング時間は他のモデルよりも2,000倍以上遅いことがわかった。
GANjiフレームワークは、モデルアーキテクチャ、計算コスト、視覚的品質の基本的なトレードオフを明らかにするための、効果的でアクセスしやすいツールである。
関連論文リスト
- LAID: Lightweight AI-Generated Image Detection in Spatial and Spectral Domains [6.676901499867856]
現在の最先端AIGI検出方法は、大規模で深いニューラルネットワークアーキテクチャに依存している。
我々は、市販軽量ニューラルネットワークの検知性能と効率をベンチマークし、評価する最初のフレームワークであるLAIDを紹介する。
本研究は, 競合条件下であっても, 軽量モデルが競合精度を達成できることを実証する。
論文 参考訳(メタデータ) (2025-07-07T16:18:19Z) - Peer-Ranked Precision: Creating a Foundational Dataset for Fine-Tuning Vision Models from DataSeeds' Annotated Imagery [0.8374689870024963]
我々は、当初、約10,610人の高品質な人間のピアランク写真画像からなるDataSeeds.AIサンプルデータセット(DSD)を紹介した。
DSDは、商用画像データセットの新しい標準となるように設計された基礎的なコンピュータビジョンデータセットである。
我々は、DSDが既知のベンチマークに対する特定のモデルに対して生成した量的改善を文書化し、我々の評価で使用されるコードとトレーニングされたモデルを一般公開する。
論文 参考訳(メタデータ) (2025-06-06T01:50:28Z) - Benchmarking Generative AI Models for Deep Learning Test Input Generation [6.674615464230326]
テスト入力ジェネレータ(TIG)は、ディープラーニング(DL)画像分類器が、トレーニングやテストセットを超えて入力の正確な予測を提供する能力を評価するために不可欠である。
ジェネレーティブAI(GenAI)モデルの最近の進歩は、合成画像の作成と操作のための強力なツールとなった。
我々は、異なるGenAIモデルとTIGをベンチマークして組み合わせ、生成したテスト画像の有効性、効率、品質を評価する。
論文 参考訳(メタデータ) (2024-12-23T15:30:42Z) - Enhancing Diffusion Models for High-Quality Image Generation [0.0]
本稿では,拡散確率モデル(DDPM)と拡散確率モデル(DDIM)の総合的な実装,評価,最適化について述べる。
推論中、これらのモデルはランダムノイズを入力とし、高画質な画像を出力として繰り返し生成する。
この研究の背景にあるのは、さまざまなデータセットをまたいだリアルなイメージを生成可能な、効率的でスケーラブルな生成AIモデルの需要が高まっていることだ。
論文 参考訳(メタデータ) (2024-12-19T00:23:15Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。