Fugu-MT 論文翻訳(概要): Iteratively Prompting Multimodal LLMs to Reproduce Natural and AI-Generated Images

論文の概要: Iteratively Prompting Multimodal LLMs to Reproduce Natural and AI-Generated Images

arxiv url: http://arxiv.org/abs/2404.13784v1
Date: Sun, 21 Apr 2024 21:30:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 15:45:49.715754
Title: Iteratively Prompting Multimodal LLMs to Reproduce Natural and AI-Generated Images
Title（参考訳）: 自然・AI生成画像の再現のための反復的マルチモーダルLCM
Authors: Ali Naseh, Katherine Thai, Mohit Iyyer, Amir Houmansadr,
Abstract要約: 本稿では,DALL-E 3 や Midjourney などのプラットフォームの出力を模倣するために,視覚的理解を充実したマルチモーダルモデルを採用する可能性について検討する。私たちは、マーケットプレースやプレミアムストックイメージプロバイダで利用可能なものに似た画像を生成するプロンプトを作成していますが、著しくコストを削減しています。自動測定と人的評価の両方で支持された我々の研究結果は、市場価格のごく一部で、同等のビジュアルコンテンツを生成できることを明らかにした。
参考スコア（独自算出の注目度）: 45.302905684461905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the digital imagery landscape rapidly evolving, image stocks and AI-generated image marketplaces have become central to visual media. Traditional stock images now exist alongside innovative platforms that trade in prompts for AI-generated visuals, driven by sophisticated APIs like DALL-E 3 and Midjourney. This paper studies the possibility of employing multi-modal models with enhanced visual understanding to mimic the outputs of these platforms, introducing an original attack strategy. Our method leverages fine-tuned CLIP models, a multi-label classifier, and the descriptive capabilities of GPT-4V to create prompts that generate images similar to those available in marketplaces and from premium stock image providers, yet at a markedly lower expense. In presenting this strategy, we aim to spotlight a new class of economic and security considerations within the realm of digital imagery. Our findings, supported by both automated metrics and human assessment, reveal that comparable visual content can be produced for a fraction of the prevailing market prices ($0.23 - $0.27 per image), emphasizing the need for awareness and strategic discussions about the integrity of digital media in an increasingly AI-integrated landscape. Our work also contributes to the field by assembling a dataset consisting of approximately 19 million prompt-image pairs generated by the popular Midjourney platform, which we plan to release publicly.
Abstract（参考訳）: デジタル画像のランドスケープが急速に発展し、画像ストックとAI生成画像マーケットプレイスがビジュアルメディアの中心となっている。従来のストックイメージは、DALL-E 3やMidjourneyといった高度なAPIによって駆動される、AI生成ビジュアルのプロンプトと引き換えに、革新的なプラットフォームと共に存在しています。本稿では,これらのプラットフォームの出力を模倣する視覚的理解度を高めたマルチモーダルモデルの導入の可能性について検討し,本来の攻撃戦略を提案する。提案手法では,細調整のCLIPモデル,マルチラベル分類器,GPT-4Vの記述機能を活用して,マーケットプレースやプレミアムストックイメージプロバイダから利用できるような画像を生成するプロンプトを生成する。この戦略を提示するにあたって,デジタル画像の領域内での新たな経済・安全保障上の配慮を浮き彫りにすることを目的としている。我々の発見は、自動測定と人的評価の両方で支持されており、同等のビジュアルコンテンツが市場価格のごく一部(画像当たり0.23～0.27ドル)で生産可能であることを明らかにし、ますますAI統合された状況におけるデジタルメディアの完全性に対する認識と戦略的議論の必要性を強調した。私たちの研究は、人気の高いMidjourneyプラットフォームによって生成される約1900万のプロンプトイメージペアからなるデータセットを組み立てることで、この分野にも貢献します。

関連論文リスト

BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset [140.1967962502411]
本稿では,拡散変換器を用いて意味的にリッチなCLIP画像特徴を生成する手法を提案する。画像理解のための統合モデルファーストトレーニングと画像生成のための逐次事前学習戦略は、実用的な利点をもたらす。革新的なモデル設計、トレーニングレシピ、データセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBLIP3-oを開発します。
論文参考訳（メタデータ） (2025-05-14T17:11:07Z)
CTR-Driven Advertising Image Generation with Multimodal Large Language Models [53.40005544344148]
本稿では,Click-Through Rate (CTR) を主目的とし,マルチモーダル大言語モデル(MLLM)を用いた広告画像の生成について検討する。生成した画像のCTRをさらに改善するため、強化学習(RL)を通して事前学習したMLLMを微調整する新たな報酬モデルを提案する。本手法は,オンラインとオフラインの両方で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-02-05T09:06:02Z)
Generative AI for Vision: A Comprehensive Study of Frameworks and Applications [0.0]
生成AIは画像合成を変換し、高品質で多様性があり、フォトリアリスティックなビジュアルを作成することができる。本研究は,入力の性質に基づく画像生成技術の構造的分類を提案する。 DALL-E、ControlNet、DeepSeek Janus-Proといった主要なフレームワークを強調し、計算コスト、データバイアス、ユーザ意図とのアウトプットアライメントといった課題に対処します。
論文参考訳（メタデータ） (2025-01-29T22:42:05Z)
PAID: A Framework of Product-Centric Advertising Image Design [31.08944590096747]
我々はPAID(Product-Centric Advertising Image Design)と呼ばれる新しいフレームワークを提案する。プロダクトフォアグラウンドとタグラインをハイライトする4つのステージで構成され、全体像の美学を達成している。 PAIDフレームワークをサポートするために、50,000以上のラベル付き画像を持つ対応するデータセットを作成します。
論文参考訳（メタデータ） (2025-01-24T08:21:35Z)
Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-05T18:52:00Z)
ENCLIP: Ensembling and Clustering-Based Contrastive Language-Image Pretraining for Fashion Multimodal Search with Limited Data and Low-Quality Images [1.534667887016089]
本稿では,CLIP(Contrastive Language- Image Pretraining)モデルの性能向上を目的とした,ENCLIPと呼ばれる革新的なアプローチを提案する。これは、限られたデータ可用性と低品質の画像によって引き起こされる課題に対処することに焦点を当てている。
論文参考訳（メタデータ） (2024-11-25T05:15:38Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
The Adversarial AI-Art: Understanding, Generation, Detection, and Benchmarking [47.08666835021915]
本稿では,AI生成画像(AI-art)を敵のシナリオで理解し,検出するための体系的な試みを提案する。 ARIAという名前のデータセットには、アートワーク(絵画)、ソーシャルメディアイメージ、ニュース写真、災害シーン、アニメ画像の5つのカテゴリに140万以上の画像が含まれている。
論文参考訳（メタデータ） (2024-04-22T21:00:13Z)
ASAP: Interpretable Analysis and Summarization of AI-generated Image Patterns at Scale [20.12991230544801]
生成画像モデルは、現実的な画像を生成するための有望な技術として登場してきた。ユーザーがAI生成画像のパターンを効果的に識別し理解できるようにするための需要が高まっている。我々はAI生成画像の異なるパターンを自動的に抽出する対話型可視化システムASAPを開発した。
論文参考訳（メタデータ） (2024-04-03T18:20:41Z)
Chaining text-to-image and large language model: A novel approach for generating personalized e-commerce banners [8.508453886143677]
オンライン買い物客向けにパーソナライズされたWebバナーを生成するために,テキスト・ツー・イメージ・モデルを用いることを実証する。このアプローチの新規性は、ユーザーのインタラクションデータを人間の介入なしに意味のあるプロンプトに変換することである。提案手法は,ユーザに対して高品質なパーソナライズバナーを作成できることを示す。
論文参考訳（メタデータ） (2024-02-28T07:56:04Z)
Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding [36.01657852250117]
Let's Go Shoppingデータセットは、パブリックなEコマースWebサイトから1500万のイメージキャプチャペアを備えた、大規模なパブリックデータセットである。実験の結果,既存のベンチマークデータセットでトレーニングされた分類器は,電子商取引データに容易に一般化できないことがわかった。 LGSは、画像キャプチャーモデルにより、よりリッチなキャプションを生成することができ、テキスト・ツー・イメージ生成モデルがEコマーススタイルの転送を実現するのに役立つ。
論文参考訳（メタデータ） (2024-01-09T14:24:29Z)
Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文参考訳（メタデータ） (2023-09-27T17:30:19Z)
Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。完全な周囲の理解は、移動エージェントに最大限の情報を提供する。本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-21T20:07:15Z)
There is a Time and Place for Reasoning Beyond the Image [63.96498435923328]
画像は人間の目へのピクセルだけでなく、他のソースからのコンテキスト情報から推論、関連付け、推論して、推論することで、より完全な画像を確立することができる。我々は、ニューヨーク・タイムズ(NYT)から自動的に抽出された16k画像と関連するニュース、時間、位置のデータセットTARAと、WITから離れた監視対象として追加で61k例を紹介した。我々は、最先端のジョイントモデルと人間のパフォーマンスの間に70%のギャップがあることを示し、これは、セグメントワイズ推論を用いて高レベルな視覚言語ジョイントモデルを動機づける提案モデルによってわずかに満たされている。
論文参考訳（メタデータ） (2022-03-01T21:52:08Z)
Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文参考訳（メタデータ） (2020-11-03T08:44:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。