Fugu-MT 論文翻訳(概要): Perspective (In)consistency of Paint by Text

論文の概要: Perspective (In)consistency of Paint by Text

arxiv url: http://arxiv.org/abs/2206.14617v1
Date: Mon, 27 Jun 2022 19:52:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-02 21:08:21.092504
Title: Perspective (In)consistency of Paint by Text
Title（参考訳）: テキストによるペンキの(イン)一貫性
Authors: Hany Farid
Abstract要約: DALL-E-2はOpenAIが開発したペイント・バイ・テキスト合成エンジンである。我々はDALL-E-2合成画像の視点整合性について検討し、幾何学に基づく法科学分析がこの新しい合成メディアの検出に有益かどうかを判断する。
参考スコア（独自算出の注目度）: 17.564409961778157
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Type "a sea otter with a pearl earring by Johannes Vermeer" or "a photo of a teddy bear on a skateboard in Times Square" into OpenAI's DALL-E-2 paint-by-text synthesis engine and you will not be disappointed by the delightful and eerily pertinent results. The ability to synthesize highly realistic images -- with seemingly no limitation other than our imagination -- is sure to yield many exciting and creative applications. These images are also likely to pose new challenges to the photo-forensic community. Motivated by the fact that paint by text is not based on explicit geometric modeling, and the human visual system's often obliviousness to even glaring geometric inconsistencies, we provide an initial exploration of the perspective consistency of DALL-E-2 synthesized images to determine if geometric-based forensic analyses will prove fruitful in detecting this new breed of synthetic media.
Abstract（参考訳）: a sea otter with a pearl earring by johannes vermeer"または"a photo of a teddy bear on a skateboard in times square"をopenaiのdall-e-2ペイント・バイ・テキスト合成エンジンにタイプする。非常にリアルなイメージを合成する能力 -- 想像力以外に制限がないように見える – は、多くのエキサイティングで創造的な応用をもたらすだろう。これらの画像は、フォトフォレンシックなコミュニティに新たな課題をもたらす可能性も高い。テキストによるペンキは明示的な幾何学的モデリングに基づいていないことや、人間の視覚系がしばしばグラマーな幾何学的不一致をしばしば無視していることに動機づけられ、dall-e-2合成画像の視点の一貫性を初期的に探究し、この新しい種類の合成メディアの検出に幾何学的ベースの分析が実りあるかどうかを判断する。

関連論文リスト

Real-time Free-view Human Rendering from Sparse-view RGB Videos using Double Unprojected Textures [87.80984588545589]
スパースビューのRGB入力からのリアルタイム自由視点人体レンダリングは、センサー不足と厳しい時間予算のために難しい課題である。本稿では,2重非投影テクスチャについて述べる。その中心部では外観合成から粗い幾何学的変形推定を行う。
論文参考訳（メタデータ） (2024-12-17T18:57:38Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
Skyeyes: Ground Roaming using Aerial View Images [9.159470619808127]
地上画像のシーケンスを生成するための新しいフレームワークであるSkyeyesを紹介した。より具体的には、3D表現とビュー一貫した生成モデルを組み合わせることで、生成された画像間のコヒーレンスを保証する。画像は、空間的時間的コヒーレンスとリアリズムを改善し、空間的視点からシーンの理解と可視化を強化する。
論文参考訳（メタデータ） (2024-09-25T07:21:43Z)
Synthetic Photography Detection: A Visual Guidance for Identifying Synthetic Images Created by AI [0.0]
合成写真は、広範囲の脅威俳優によって悪用されることがある。生成した画像中の可視人工物は、その合成原点を訓練された眼に示している。これらのアーティファクトを分類し、例を示し、検出する上での課題について議論し、我々の研究の実践的応用を提案し、今後の研究方向性を概説する。
論文参考訳（メタデータ） (2024-08-12T08:58:23Z)
Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。 2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文参考訳（メタデータ） (2024-01-19T16:15:37Z)
T2IW: Joint Text to Image & Watermark Generation [74.20148555503127]
画像と透かし(T2IW)への共同テキスト生成のための新しいタスクを提案する。このT2IWスキームは、意味的特徴と透かし信号が画素内で互換性を持つように強制することにより、複合画像を生成する際に、画像品質に最小限のダメージを与える。提案手法により,画像品質,透かしの可視性,透かしの堅牢性などの顕著な成果が得られた。
論文参考訳（メタデータ） (2023-09-07T16:12:06Z)
Learning to Evaluate the Artness of AI-generated Images [64.48229009396186]
アートスコア(ArtScore)は、アーティストによる本物のアートワークと画像がどの程度似ているかを評価するために設計されたメトリクスである。我々は、写真とアートワークの生成のために事前訓練されたモデルを採用し、一連の混合モデルを生み出した。このデータセットはニューラルネットワークのトレーニングに使用され、任意の画像の定量化精度レベルを推定する方法を学ぶ。
論文参考訳（メタデータ） (2023-05-08T17:58:27Z)
Paint it Black: Generating paintings from text descriptions [0.0]
与えられたテキストのプロンプトからフォトリアリスティックな画像を生成し、絵のスタイルを実際の画像に移し、まるでアーティストによって行われたかのように見せるという2つのタスクが何度も解決され、それを達成するためのいくつかのアプローチが提案されている。本稿では,2つの異なる戦略を探求し,それらを統合した。第1の戦略は、フォトリアリスティック画像を生成し、スタイル転送を適用し、第2の戦略は、キャプションで実画像上で画像生成モデルをトレーニングし、後でキャプションされた絵に微調整することである。
論文参考訳（メタデータ） (2023-02-17T11:07:53Z)
Lighting (In)consistency of Paint by Text [17.564409961778157]
ペイント・バイ・テキストエンジンは、任意の構成と組み合わせで、一見無限のカテゴリのリアルなイメージを合成することができる。我々は、DALL-E-2合成画像の光の一貫性を調べ、物理に基づく法医学的な分析が、この新しいタイプの合成媒体を検出する上で有益かどうかを判断する。
論文参考訳（メタデータ） (2022-07-27T18:48:36Z)
GeLaTO: Generative Latent Textured Objects [19.654444725146686]
Generative Latent Textured Objects (GeLaTO)は、低周波幾何学を定義する粗い形状のプロキシと学習された神経テクスチャを組み合わせたコンパクトな表現である。眼鏡フレームの実際の画像のデータセットに結果を示すが、これは特にフォトリアリスティックな手法を用いて再構築することが困難である。
論文参考訳（メタデータ） (2020-08-11T16:55:26Z)
Sketch-Guided Scenery Image Outpainting [83.6612152173028]
本稿では,スケッチ誘導露光を行うエンコーダデコーダに基づくネットワークを提案する。全体的アライメントモジュールを適用して、合成された部分をグローバルビューの実際のものと類似させる。第2に, 合成した部分からスケッチを逆向きに生成し, 接地した部分との整合性を奨励する。
論文参考訳（メタデータ） (2020-06-17T11:34:36Z)
Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文参考訳（メタデータ） (2020-03-02T10:44:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。