論文の概要: Lighting (In)consistency of Paint by Text
- arxiv url: http://arxiv.org/abs/2207.13744v1
- Date: Wed, 27 Jul 2022 18:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:12:14.687277
- Title: Lighting (In)consistency of Paint by Text
- Title(参考訳): テキストによる塗料の照明(イン)一貫性
- Authors: Hany Farid
- Abstract要約: ペイント・バイ・テキストエンジンは、任意の構成と組み合わせで、一見無限のカテゴリのリアルなイメージを合成することができる。
我々は、DALL-E-2合成画像の光の一貫性を調べ、物理に基づく法医学的な分析が、この新しいタイプの合成媒体を検出する上で有益かどうかを判断する。
- 参考スコア(独自算出の注目度): 17.564409961778157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whereas generative adversarial networks are capable of synthesizing highly
realistic images of faces, cats, landscapes, or almost any other single
category, paint-by-text synthesis engines can -- from a single text prompt --
synthesize realistic images of seemingly endless categories with arbitrary
configurations and combinations. This powerful technology poses new challenges
to the photo-forensic community. Motivated by the fact that paint by text is
not based on explicit geometric or physical models, and the human visual
system's general insensitivity to lighting inconsistencies, we provide an
initial exploration of the lighting consistency of DALL-E-2 synthesized images
to determine if physics-based forensic analyses will prove fruitful in
detecting this new breed of synthetic media.
- Abstract(参考訳): 生成的な敵ネットワークは、顔、猫、風景、またはほぼすべての単一のカテゴリの非常に現実的なイメージを合成することができるが、ペイント・バイ・テキスト合成エンジンは、単一のテキストプロンプトから、任意の構成と組み合わせで、無限のカテゴリの現実的なイメージを合成することができる。
この強力な技術は、photo-forensicコミュニティに新たな課題をもたらす。
テキストによるペンキは明示的な幾何学的・物理的モデルに基づいていないことや、人間の視覚システムの照明の不整合に対する一般的な無感に動機づけられ、dall-e-2合成画像の照明一貫性を初期調査し、この新しい種類の合成メディアの検出に物理学に基づく分析が実りあるかどうかを判断する。
関連論文リスト
- When Synthetic Traces Hide Real Content: Analysis of Stable Diffusion Image Laundering [18.039034362749504]
近年、高度にリアルな合成画像を作成する方法が大幅に進歩している。
SDオートエンコーダを介して画像を渡すことで、画像の合成コピーを高いリアリズムで再現することができ、視覚的アーティファクトはほとんどない。
このプロセスはSD画像ロンダリング(SD image laundering)と呼ばれ、実際の画像を見た目の合成画像に変換することができ、コンテンツ認証のための法医学的分析を複雑にするリスクがある。
論文 参考訳(メタデータ) (2024-07-15T14:01:35Z) - Harnessing the Power of Large Vision Language Models for Synthetic Image Detection [14.448350657613364]
本研究では,合成画像識別における高度な視覚言語モデル(VLM)の有効性について検討した。
大規模VLMの頑健な理解能力を活用することにより,拡散モデルによる合成画像と真正画像の識別が目的である。
論文 参考訳(メタデータ) (2024-04-03T13:27:54Z) - TextureDreamer: Image-guided Texture Synthesis through Geometry-aware
Diffusion [64.49276500129092]
TextureDreamerは画像誘導型テクスチャ合成法である。
少数の入力画像から任意のカテゴリでターゲットの3D形状に光沢のあるテクスチャを転送することができる。
論文 参考訳(メタデータ) (2024-01-17T18:55:49Z) - Multi-Channel Cross Modal Detection of Synthetic Face Images [0.0]
合成生成された顔画像は、人間による実際の画像と区別できないことが示されている。
高速かつ任意の画像後処理が可能な新しい生成モデルを提案する。
完全に合成された顔画像を検出するためのマルチチャネルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-28T13:30:10Z) - Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。
連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-06T17:59:31Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning [22.4158195581231]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルで効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Perspective (In)consistency of Paint by Text [17.564409961778157]
DALL-E-2はOpenAIが開発したペイント・バイ・テキスト合成エンジンである。
我々はDALL-E-2合成画像の視点整合性について検討し、幾何学に基づく法科学分析がこの新しい合成メディアの検出に有益かどうかを判断する。
論文 参考訳(メタデータ) (2022-06-27T19:52:33Z) - Realistic Image Synthesis with Configurable 3D Scene Layouts [59.872657806747576]
本稿では,3次元シーンレイアウトに基づくリアルな画像合成手法を提案する。
提案手法では, セマンティッククラスラベルを入力として3Dシーンを抽出し, 3Dシーンの描画ネットワークを訓練する。
訓練された絵画ネットワークにより、入力された3Dシーンのリアルな外観の画像を描画し、操作することができる。
論文 参考訳(メタデータ) (2021-08-23T09:44:56Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。