論文の概要: Perspective (In)consistency of Paint by Text
- arxiv url: http://arxiv.org/abs/2206.14617v1
- Date: Mon, 27 Jun 2022 19:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 21:08:21.092504
- Title: Perspective (In)consistency of Paint by Text
- Title(参考訳): テキストによるペンキの(イン)一貫性
- Authors: Hany Farid
- Abstract要約: DALL-E-2はOpenAIが開発したペイント・バイ・テキスト合成エンジンである。
我々はDALL-E-2合成画像の視点整合性について検討し、幾何学に基づく法科学分析がこの新しい合成メディアの検出に有益かどうかを判断する。
- 参考スコア(独自算出の注目度): 17.564409961778157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Type "a sea otter with a pearl earring by Johannes Vermeer" or "a photo of a
teddy bear on a skateboard in Times Square" into OpenAI's DALL-E-2
paint-by-text synthesis engine and you will not be disappointed by the
delightful and eerily pertinent results. The ability to synthesize highly
realistic images -- with seemingly no limitation other than our imagination --
is sure to yield many exciting and creative applications. These images are also
likely to pose new challenges to the photo-forensic community. Motivated by the
fact that paint by text is not based on explicit geometric modeling, and the
human visual system's often obliviousness to even glaring geometric
inconsistencies, we provide an initial exploration of the perspective
consistency of DALL-E-2 synthesized images to determine if geometric-based
forensic analyses will prove fruitful in detecting this new breed of synthetic
media.
- Abstract(参考訳): a sea otter with a pearl earring by johannes vermeer"または"a photo of a teddy bear on a skateboard in times square"をopenaiのdall-e-2ペイント・バイ・テキスト合成エンジンにタイプする。
非常にリアルなイメージを合成する能力 -- 想像力以外に制限がないように見える – は、多くのエキサイティングで創造的な応用をもたらすだろう。
これらの画像は、フォトフォレンシックなコミュニティに新たな課題をもたらす可能性も高い。
テキストによるペンキは明示的な幾何学的モデリングに基づいていないことや、人間の視覚系がしばしばグラマーな幾何学的不一致をしばしば無視していることに動機づけられ、dall-e-2合成画像の視点の一貫性を初期的に探究し、この新しい種類の合成メディアの検出に幾何学的ベースの分析が実りあるかどうかを判断する。
関連論文リスト
- Sat2Scene: 3D Urban Scene Generation from Satellite Images with
Diffusion [82.97474530980999]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - R2Human: Real-Time 3D Human Appearance Rendering from a Single Image [46.691972209370704]
R$2$Humanは、1つの画像から3D人間の外見をリアルタイムに推測およびレンダリングするための最初のアプローチである。
本稿では、可視領域の高忠実な色再現を行い、隠蔽領域に対して信頼性の高い色推定を行うエンド・ツー・エンド・ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-10T08:59:43Z) - T2IW: Joint Text to Image & Watermark Generation [74.20148555503127]
画像と透かし(T2IW)への共同テキスト生成のための新しいタスクを提案する。
このT2IWスキームは、意味的特徴と透かし信号が画素内で互換性を持つように強制することにより、複合画像を生成する際に、画像品質に最小限のダメージを与える。
提案手法により,画像品質,透かしの可視性,透かしの堅牢性などの顕著な成果が得られた。
論文 参考訳(メタデータ) (2023-09-07T16:12:06Z) - Learning to Evaluate the Artness of AI-generated Images [72.06263228104709]
アートスコア(ArtScore)は、アーティストによる本物のアートワークと画像がどの程度似ているかを評価するために設計されたメトリクスである。
我々は、写真とアートワークの生成のために事前訓練されたモデルを採用し、一連の混合モデルを生み出した。
このデータセットはニューラルネットワークのトレーニングに使用され、任意の画像の定量化精度レベルを推定する方法を学ぶ。
論文 参考訳(メタデータ) (2023-05-08T17:58:27Z) - Paint it Black: Generating paintings from text descriptions [0.0]
与えられたテキストのプロンプトからフォトリアリスティックな画像を生成し、絵のスタイルを実際の画像に移し、まるでアーティストによって行われたかのように見せるという2つのタスクが何度も解決され、それを達成するためのいくつかのアプローチが提案されている。
本稿では,2つの異なる戦略を探求し,それらを統合した。
第1の戦略は、フォトリアリスティック画像を生成し、スタイル転送を適用し、第2の戦略は、キャプションで実画像上で画像生成モデルをトレーニングし、後でキャプションされた絵に微調整することである。
論文 参考訳(メタデータ) (2023-02-17T11:07:53Z) - Geometry-biased Transformers for Novel View Synthesis [36.11342728319563]
入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。
我々の研究は、マルチビュー画像を(グローバル)セットラテント表現としてエンコードする最近の「幾何学自由」アプローチにインスパイアされている。
本稿では, 幾何学的帰納バイアスをセットレイト表現に基づく推論に組み込んだ「幾何学バイアス変換器」(GBT)を提案する。
論文 参考訳(メタデータ) (2023-01-11T18:59:56Z) - Lighting (In)consistency of Paint by Text [17.564409961778157]
ペイント・バイ・テキストエンジンは、任意の構成と組み合わせで、一見無限のカテゴリのリアルなイメージを合成することができる。
我々は、DALL-E-2合成画像の光の一貫性を調べ、物理に基づく法医学的な分析が、この新しいタイプの合成媒体を検出する上で有益かどうかを判断する。
論文 参考訳(メタデータ) (2022-07-27T18:48:36Z) - Semantic View Synthesis [56.47999473206778]
我々はセマンティック・ビュー・シンセサイザーの新たな課題に取り組み、セマンティック・ラベル・マップを入力として、合成シーンの自由視点レンダリングを生成する。
まず,3次元映像の視覚面の色と深度を合成することに焦点を当てた。
次に、合成色と深度を用いて、多面画像(MPI)表現予測プロセスに明示的な制約を課す。
論文 参考訳(メタデータ) (2020-08-24T17:59:46Z) - GeLaTO: Generative Latent Textured Objects [19.654444725146686]
Generative Latent Textured Objects (GeLaTO)は、低周波幾何学を定義する粗い形状のプロキシと学習された神経テクスチャを組み合わせたコンパクトな表現である。
眼鏡フレームの実際の画像のデータセットに結果を示すが、これは特にフォトリアリスティックな手法を用いて再構築することが困難である。
論文 参考訳(メタデータ) (2020-08-11T16:55:26Z) - Sketch-Guided Scenery Image Outpainting [83.6612152173028]
本稿では,スケッチ誘導露光を行うエンコーダデコーダに基づくネットワークを提案する。
全体的アライメントモジュールを適用して、合成された部分をグローバルビューの実際のものと類似させる。
第2に, 合成した部分からスケッチを逆向きに生成し, 接地した部分との整合性を奨励する。
論文 参考訳(メタデータ) (2020-06-17T11:34:36Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。