論文の概要: Optical Generative Models
- arxiv url: http://arxiv.org/abs/2410.17970v1
- Date: Wed, 23 Oct 2024 15:36:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:21.481223
- Title: Optical Generative Models
- Title(参考訳): 光生成モデル
- Authors: Shiqi Chen, Yuhang Li, Hanlong Chen, Aydogan Ozcan,
- Abstract要約: デジタル生成モデルが大きくなるにつれて、高速でエネルギー効率の良い方法でスケーラブルな推論が課題となる。
拡散モデルにインスパイアされた光生成モデルを示し、浅層・高速デジタルエンコーダがまずランダムノイズを位相パターンにマッピングする。
共同で訓練された自由空間ベースの再構成可能なデコーダは、これら生成した種子を全て光学的に処理して、新しい画像を生成する。
- 参考スコア(独自算出の注目度): 18.41925837760181
- License:
- Abstract: Generative models cover various application areas, including image, video and music synthesis, natural language processing, and molecular design, among many others. As digital generative models become larger, scalable inference in a fast and energy-efficient manner becomes a challenge. Here, we present optical generative models inspired by diffusion models, where a shallow and fast digital encoder first maps random noise into phase patterns that serve as optical generative seeds for a desired data distribution; a jointly-trained free-space-based reconfigurable decoder all-optically processes these generative seeds to create novel images (never seen before) following the target data distribution. Except for the illumination power and the random seed generation through a shallow encoder, these optical generative models do not consume computing power during the synthesis of novel images. We report the optical generation of monochrome and multi-color novel images of handwritten digits, fashion products, butterflies, and human faces, following the data distributions of MNIST, Fashion MNIST, Butterflies-100, and Celeb-A datasets, respectively, achieving an overall performance comparable to digital neural network-based generative models. To experimentally demonstrate optical generative models, we used visible light to generate, in a snapshot, novel images of handwritten digits and fashion products. These optical generative models might pave the way for energy-efficient, scalable and rapid inference tasks, further exploiting the potentials of optics and photonics for artificial intelligence-generated content.
- Abstract(参考訳): 生成モデルは、画像、ビデオ、音楽合成、自然言語処理、分子設計など、様々な応用分野をカバーする。
デジタル生成モデルが大きくなるにつれて、高速でエネルギー効率の良い方法でスケーラブルな推論が課題となる。
ここでは、拡散モデルに着想を得た光生成モデルを提案する。まず、浅く高速なデジタルエンコーダは、まず、所望のデータ配信のための光生成シードとして機能する位相パターンにランダムノイズをマッピングする。
浅いエンコーダによる照明パワーとランダムなシード生成を除いて、これらの光生成モデルは、新しい画像の合成中に計算パワーを消費しない。
我々は,MNIST, Fashion MNIST, Butterflies-100, Celeb-Aデータセットのデータ分布に従って,手書き桁, ファッション製品, 蝶, 人間の顔のモノクロおよび多色新規画像の光学的生成を報告する。
光生成モデルを実験的に実証するため、可視光を用いて手書きディジットとファッション製品の新しい画像を生成した。
これらの光生成モデルは、エネルギー効率が高く、スケーラブルで、高速な推論タスクの道を開き、人工知能が生成するコンテンツのための光学やフォトニクスのポテンシャルをさらに活用するかもしれない。
関連論文リスト
- Optical Diffusion Models for Image Generation [8.91748872686524]
拡散モデルは、初期供給されたランダム分布から徐々にノイズを減らし、新しいサンプルを生成する。
この推論手順は、トレーニングされたニューラルネットワークを何回も使用して最終的な出力を得るのが一般的である。
本研究では,半透明媒質を透過する光ビームの伝搬をプログラムし,画像サンプルにデノナイズ拡散モデルを実装することを実証する。
論文 参考訳(メタデータ) (2024-07-15T16:46:14Z) - SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。
このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。
エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:53:34Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Diffusion idea exploration for art generation [0.10152838128195467]
拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおいて、他の生成モデルよりも優れています。
このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。
論文 参考訳(メタデータ) (2023-07-11T02:35:26Z) - Intriguing properties of synthetic images: from generative adversarial
networks to diffusion models [19.448196464632]
実際の画像と偽画像を区別する上で,どの画像の特徴がより優れているかを知ることが重要である。
本稿では, 実画像と生成画像の最も法学的に関係した特徴を発見することを目的とした, 異なる家系の多数の画像生成装置の系統的研究について報告する。
論文 参考訳(メタデータ) (2023-04-13T11:13:19Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - 3DMM-RF: Convolutional Radiance Fields for 3D Face Modeling [111.98096975078158]
本稿では,1つのパスを1つのパスで合成し,必要なニューラルネットワークのレンダリングサンプルのみを合成するスタイルベースの生成ネットワークを提案する。
このモデルは、任意のポーズと照明の顔画像に正確に適合し、顔の特徴を抽出し、制御可能な条件下で顔を再レンダリングするために使用できることを示す。
論文 参考訳(メタデータ) (2022-09-15T15:28:45Z) - Learning optical flow from still images [53.295332513139925]
我々は,容易に利用可能な単一の実画像から,高精度な光学的フローアノテーションを迅速かつ多量に生成するフレームワークを提案する。
既知の動きベクトルと回転角を持つ再構成された環境でカメラを仮想的に移動させる。
我々のデータでトレーニングすると、最先端の光フローネットワークは、実データを見るのに優れた一般化を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:58Z) - Interpreting Spatially Infinite Generative Models [40.453301580034804]
近年の研究では、空間ノイズベクトルを完全な畳み込みニューラルネットワークに入力することで、任意の解像度出力画像の生成と任意の解像度トレーニング画像のトレーニングが可能であることが示されている。
空間過程への接続を描画することで、無限空間生成のしっかりとした理論的解釈を提供する。
世界地図生成、パノラマ画像、テクスチャ合成の実験は、任意の大きさの画像を効率的に生成する$infty$-GANの能力を検証する。
論文 参考訳(メタデータ) (2020-07-24T09:00:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。