論文の概要: Perspective (In)consistency of Paint by Text
- arxiv url: http://arxiv.org/abs/2206.14617v1
- Date: Mon, 27 Jun 2022 19:52:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-02 21:08:21.092504
- Title: Perspective (In)consistency of Paint by Text
- Title(参考訳): テキストによるペンキの(イン)一貫性
- Authors: Hany Farid
- Abstract要約: DALL-E-2はOpenAIが開発したペイント・バイ・テキスト合成エンジンである。
我々はDALL-E-2合成画像の視点整合性について検討し、幾何学に基づく法科学分析がこの新しい合成メディアの検出に有益かどうかを判断する。
- 参考スコア(独自算出の注目度): 17.564409961778157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Type "a sea otter with a pearl earring by Johannes Vermeer" or "a photo of a
teddy bear on a skateboard in Times Square" into OpenAI's DALL-E-2
paint-by-text synthesis engine and you will not be disappointed by the
delightful and eerily pertinent results. The ability to synthesize highly
realistic images -- with seemingly no limitation other than our imagination --
is sure to yield many exciting and creative applications. These images are also
likely to pose new challenges to the photo-forensic community. Motivated by the
fact that paint by text is not based on explicit geometric modeling, and the
human visual system's often obliviousness to even glaring geometric
inconsistencies, we provide an initial exploration of the perspective
consistency of DALL-E-2 synthesized images to determine if geometric-based
forensic analyses will prove fruitful in detecting this new breed of synthetic
media.
- Abstract(参考訳): a sea otter with a pearl earring by johannes vermeer"または"a photo of a teddy bear on a skateboard in times square"をopenaiのdall-e-2ペイント・バイ・テキスト合成エンジンにタイプする。
非常にリアルなイメージを合成する能力 -- 想像力以外に制限がないように見える – は、多くのエキサイティングで創造的な応用をもたらすだろう。
これらの画像は、フォトフォレンシックなコミュニティに新たな課題をもたらす可能性も高い。
テキストによるペンキは明示的な幾何学的モデリングに基づいていないことや、人間の視覚系がしばしばグラマーな幾何学的不一致をしばしば無視していることに動機づけられ、dall-e-2合成画像の視点の一貫性を初期的に探究し、この新しい種類の合成メディアの検出に幾何学的ベースの分析が実りあるかどうかを判断する。
関連論文リスト
- Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures [87.80984588545589]
スパースビューのRGB入力からのリアルタイム自由視点人体レンダリングは、センサー不足と厳しい時間予算のために難しい課題である。
最近の手法では、テクスチャ空間で動作する2次元CNNを活用して、レンダリングプリミティブを学習している。
本稿では,2重非プロジェクテッドテクスチャについて述べる。
論文 参考訳(メタデータ) (2024-12-17T18:57:38Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Skyeyes: Ground Roaming using Aerial View Images [9.159470619808127]
地上画像のシーケンスを生成するための新しいフレームワークであるSkyeyesを紹介した。
より具体的には、3D表現とビュー一貫した生成モデルを組み合わせることで、生成された画像間のコヒーレンスを保証する。
画像は、空間的時間的コヒーレンスとリアリズムを改善し、空間的視点からシーンの理解と可視化を強化する。
論文 参考訳(メタデータ) (2024-09-25T07:21:43Z) - Synthetic Photography Detection: A Visual Guidance for Identifying Synthetic Images Created by AI [0.0]
合成写真は、広範囲の脅威俳優によって悪用されることがある。
生成した画像中の可視人工物は、その合成原点を訓練された眼に示している。
これらのアーティファクトを分類し、例を示し、検出する上での課題について議論し、我々の研究の実践的応用を提案し、今後の研究方向性を概説する。
論文 参考訳(メタデータ) (2024-08-12T08:58:23Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - T2IW: Joint Text to Image & Watermark Generation [74.20148555503127]
画像と透かし(T2IW)への共同テキスト生成のための新しいタスクを提案する。
このT2IWスキームは、意味的特徴と透かし信号が画素内で互換性を持つように強制することにより、複合画像を生成する際に、画像品質に最小限のダメージを与える。
提案手法により,画像品質,透かしの可視性,透かしの堅牢性などの顕著な成果が得られた。
論文 参考訳(メタデータ) (2023-09-07T16:12:06Z) - Learning to Evaluate the Artness of AI-generated Images [64.48229009396186]
アートスコア(ArtScore)は、アーティストによる本物のアートワークと画像がどの程度似ているかを評価するために設計されたメトリクスである。
我々は、写真とアートワークの生成のために事前訓練されたモデルを採用し、一連の混合モデルを生み出した。
このデータセットはニューラルネットワークのトレーニングに使用され、任意の画像の定量化精度レベルを推定する方法を学ぶ。
論文 参考訳(メタデータ) (2023-05-08T17:58:27Z) - Lighting (In)consistency of Paint by Text [17.564409961778157]
ペイント・バイ・テキストエンジンは、任意の構成と組み合わせで、一見無限のカテゴリのリアルなイメージを合成することができる。
我々は、DALL-E-2合成画像の光の一貫性を調べ、物理に基づく法医学的な分析が、この新しいタイプの合成媒体を検出する上で有益かどうかを判断する。
論文 参考訳(メタデータ) (2022-07-27T18:48:36Z) - GeLaTO: Generative Latent Textured Objects [19.654444725146686]
Generative Latent Textured Objects (GeLaTO)は、低周波幾何学を定義する粗い形状のプロキシと学習された神経テクスチャを組み合わせたコンパクトな表現である。
眼鏡フレームの実際の画像のデータセットに結果を示すが、これは特にフォトリアリスティックな手法を用いて再構築することが困難である。
論文 参考訳(メタデータ) (2020-08-11T16:55:26Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。