論文の概要: Imagen 3
- arxiv url: http://arxiv.org/abs/2408.07009v1
- Date: Tue, 13 Aug 2024 16:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 16:55:31.496296
- Title: Imagen 3
- Title(参考訳): 画像3
- Authors: Imagen-Team-Google, :, Jason Baldridge, Jakob Bauer, Mukul Bhutani, Nicole Brichtova, Andrew Bunner, Kelvin Chan, Yichang Chen, Sander Dieleman, Yuqing Du, Zach Eaton-Rosen, Hongliang Fei, Nando de Freitas, Yilin Gao, Evgeny Gladchenko, Sergio Gómez Colmenarejo, Mandy Guo, Alex Haig, Will Hawkins, Hexiang Hu, Huilian Huang, Tobenna Peter Igwe, Christos Kaplanis, Siavash Khodadadeh, Yelin Kim, Ksenia Konyushkova, Karol Langner, Eric Lau, Shixin Luo, Soňa Mokrá, Henna Nandwani, Yasumasa Onoe, Aäron van den Oord, Zarana Parekh, Jordi Pont-Tuset, Hang Qi, Rui Qian, Deepak Ramachandran, Poorva Rane, Abdullah Rashwan, Ali Razavi, Robert Riachi, Hansa Srinivasan, Srivatsan Srinivasan, Robin Strudel, Benigno Uria, Oliver Wang, Su Wang, Austin Waters, Chris Wolff, Auriel Wright, Zhisheng Xiao, Hao Xiong, Keyang Xu, Marc van Zee, Junlin Zhang, Katie Zhang, Wenlei Zhou, Konrad Zolna, Ola Aboubakar, Canfer Akbulut, Oscar Akerlund, Isabela Albuquerque, Nina Anderson, Marco Andreetto, Lora Aroyo, Ben Bariach, David Barker, Sherry Ben, Dana Berman, Courtney Biles, Irina Blok, Pankil Botadra, Jenny Brennan, Karla Brown, John Buckley, Rudy Bunel, Elie Bursztein, Christina Butterfield, Ben Caine, Viral Carpenter, Norman Casagrande, Ming-Wei Chang, Solomon Chang, Shamik Chaudhuri, Tony Chen, John Choi, Dmitry Churbanau, Nathan Clement, Matan Cohen, Forrester Cole, Mikhail Dektiarev, Vincent Du, Praneet Dutta, Tom Eccles, Ndidi Elue, Ashley Feden, Shlomi Fruchter, Frankie Garcia, Roopal Garg, Weina Ge, Ahmed Ghazy, Bryant Gipson, Andrew Goodman, Dawid Górny, Sven Gowal, Khyatti Gupta, Yoni Halpern, Yena Han, Susan Hao, Jamie Hayes, Amir Hertz, Ed Hirst, Tingbo Hou, Heidi Howard, Mohamed Ibrahim, Dirichi Ike-Njoku, Joana Iljazi, Vlad Ionescu, William Isaac, Reena Jana, Gemma Jennings, Donovon Jenson, Xuhui Jia, Kerry Jones, Xiaoen Ju, Ivana Kajic, Christos Kaplanis, Burcu Karagol Ayan, Jacob Kelly, Suraj Kothawade, Christina Kouridi, Ira Ktena, Jolanda Kumakaw, Dana Kurniawan, Dmitry Lagun, Lily Lavitas, Jason Lee, Tao Li, Marco Liang, Maggie Li-Calis, Yuchi Liu, Javier Lopez Alberca, Peggy Lu, Kristian Lum, Yukun Ma, Chase Malik, John Mellor, Inbar Mosseri, Tom Murray, Aida Nematzadeh, Paul Nicholas, João Gabriel Oliveira, Guillermo Ortiz-Jimenez, Michela Paganini, Tom Le Paine, Roni Paiss, Alicia Parrish, Anne Peckham, Vikas Peswani, Igor Petrovski, Tobias Pfaff, Alex Pirozhenko, Ryan Poplin, Utsav Prabhu, Yuan Qi, Matthew Rahtz, Cyrus Rashtchian, Charvi Rastogi, Amit Raul, Ali Razavi, Sylvestre-Alvise Rebuffi, Susanna Ricco, Felix Riedel, Dirk Robinson, Pankaj Rohatgi, Bill Rosgen, Sarah Rumbley, Moonkyung Ryu, Anthony Salgado, Sahil Singla, Florian Schroff, Candice Schumann, Tanmay Shah, Brendan Shillingford, Kaushik Shivakumar, Dennis Shtatnov, Zach Singer, Evgeny Sluzhaev, Valerii Sokolov, Thibault Sottiaux, Florian Stimberg, Brad Stone, David Stutz, Yu-Chuan Su, Eric Tabellion, Shuai Tang, David Tao, Kurt Thomas, Gregory Thornton, Andeep Toor, Cristian Udrescu, Aayush Upadhyay, Cristina Vasconcelos, Alex Vasiloff, Andrey Voynov, Amanda Walker, Luyu Wang, Miaosen Wang, Simon Wang, Stanley Wang, Qifei Wang, Yuxiao Wang, Ágoston Weisz, Olivia Wiles, Chenxia Wu, Xingyu Federico Xu, Andrew Xue, Jianbo Yang, Luo Yu, Mete Yurtoglu, Ali Zand, Han Zhang, Jiageng Zhang, Catherine Zhao, Adilet Zhaxybay, Miao Zhou, Shengqi Zhu, Zhenkai Zhu, Dawn Bloxwich, Mahyar Bordbar, Luis C. Cobo, Eli Collins, Shengyang Dai, Tulsee Doshi, Anca Dragan, Douglas Eck, Demis Hassabis, Sissie Hsiao, Tom Hume, Koray Kavukcuoglu, Helen King, Jack Krawczyk, Yeqing Li, Kathy Meier-Hellstern, Andras Orban, Yury Pinsky, Amar Subramanya, Oriol Vinyals, Ting Yu, Yori Zwols,
- Abstract要約: 本稿では,テキストプロンプトから高品質な画像を生成する潜時拡散モデルであるImagen 3を紹介する。
安全と表現に関する問題と、モデルの潜在的な害を最小限にするために使用した手法について議論する。
- 参考スコア(独自算出の注目度): 130.7245167284323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Imagen 3, a latent diffusion model that generates high quality images from text prompts. We describe our quality and responsibility evaluations. Imagen 3 is preferred over other state-of-the-art (SOTA) models at the time of evaluation. In addition, we discuss issues around safety and representation, as well as methods we used to minimize the potential harm of our models.
- Abstract(参考訳): 本稿では,テキストプロンプトから高品質な画像を生成する潜時拡散モデルであるImagen 3を紹介する。
品質評価と責任評価について説明する。
画像3は、評価時に他の最先端(SOTA)モデルよりも好まれる。
さらに、安全と表現に関する問題や、モデルの潜在的損害を最小限に抑えるために使用した手法についても論じる。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Fine Tuning Text-to-Image Diffusion Models for Correcting Anomalous Images [0.0]
本研究では,DreamBooth法を用いて安定拡散3モデルを微調整することにより,このような問題を緩和する手法を提案する。
SSIM(Structure similarity Index)、Pak Signal-to-Noise Ratio(PSNR)、Frechet Inception Distance(FID)など、視覚的評価の精度向上を示す。
論文 参考訳(メタデータ) (2024-09-23T00:51:47Z) - FreeEnhance: Tuning-Free Image Enhancement via Content-Consistent Noising-and-Denoising Process [120.91393949012014]
FreeEnhanceは、既製の画像拡散モデルを用いたコンテンツ一貫性のある画像強調のためのフレームワークである。
ノイズ発生段階では、FreeEnhanceは、元の画像の高頻度パターンを保存するために、より周波数の高い領域により軽いノイズを加えるように考案されている。
この段階では3つの目標特性を予測された雑音の規則化の制約として提示し,高精度で視覚的品質の高い画像の強調を行う。
論文 参考訳(メタデータ) (2024-09-11T17:58:50Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Regeneration Based Training-free Attribution of Fake Images Generated by
Text-to-Image Generative Models [39.33821502730661]
そこで本研究では,テキスト・ツー・イメージ・モデルによって生成された偽画像をソース・モデルに属性付けするためのトレーニング不要な手法を提案する。
テスト画像と候補画像の類似性を計算し、ランキングすることにより、画像のソースを決定することができる。
論文 参考訳(メタデータ) (2024-03-03T11:55:49Z) - Playground v2.5: Three Insights towards Enhancing Aesthetic Quality in
Text-to-Image Generation [3.976813869450304]
色とコントラストの強化、複数アスペクト比での生成の改善、人中心の細部の改善に重点を置いている。
われわれのモデルはオープンソースであり、Playground v2.5の開発は、拡散型画像生成モデルの美的品質を高めることを目的とした研究者に貴重なガイドラインを提供することを期待している。
論文 参考訳(メタデータ) (2024-02-27T06:31:52Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - Quality-agnostic Image Captioning to Safely Assist People with Vision
Impairment [11.864465182761945]
本稿では、合成雑音を生成するためのデータ拡張手法が、この領域におけるデータの空間性にどのように対処できるかを示す。
第二に、最先端のモデルをデュアルネットワークアーキテクチャに拡張することにより、モデルの堅牢性を高める。
第3に,困難/雑音レベルの異なる画像に対して,信頼度校正による予測信頼性の評価を行った。
論文 参考訳(メタデータ) (2023-04-28T04:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。