Fugu-MT 論文翻訳(概要): Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval

論文の概要: Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval

arxiv url: http://arxiv.org/abs/2407.10683v1
Date: Mon, 15 Jul 2024 12:59:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 15:21:26.972512
Title: Addressing Image Hallucination in Text-to-Image Generation through Factual Image Retrieval
Title（参考訳）: 実画像検索によるテキスト・画像生成における幻覚の対応
Authors: Youngsun Lim, Hyunjung Shim,
Abstract要約: 本稿では,外部から取得した実写画像を用いて現実的な画像を生成する手法を提案する。 InstructPix2Pix や IP-Adapter といった既製の画像編集ツールを使って、検索した画像の事実情報を活用する。
参考スコア（独自算出の注目度）: 14.471150840618211
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image generation has shown remarkable progress with the emergence of diffusion models. However, these models often generate factually inconsistent images, failing to accurately reflect the factual information and common sense conveyed by the input text prompts. We refer to this issue as Image hallucination. Drawing from studies on hallucinations in language models, we classify this problem into three types and propose a methodology that uses factual images retrieved from external sources to generate realistic images. Depending on the nature of the hallucination, we employ off-the-shelf image editing tools, either InstructPix2Pix or IP-Adapter, to leverage factual information from the retrieved image. This approach enables the generation of images that accurately reflect the facts and common sense.
Abstract（参考訳）: テキスト・画像生成は拡散モデルの出現とともに顕著な進歩を見せている。しかし、これらのモデルはしばしば、実際の矛盾した画像を生成し、入力されたテキストプロンプトによって伝達される事実情報や常識を正確に反映することができない。我々はこの問題をイメージ幻覚と呼ぶ。言語モデルにおける幻覚の研究から、この問題を3つのタイプに分類し、外部ソースから取得した実像を用いて現実的な画像を生成する手法を提案する。幻覚の性質によっては,InstructPix2PixやIP-Adapterといった既製の画像編集ツールを用いて,検索した画像の事実情報を活用する。このアプローチにより、事実や常識を正確に反映した画像の生成が可能になる。

関連論文リスト

SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision [59.61988843996952]
Style-Aware Visual Early Revision SAVERはトークンレベルの視覚的注意パターンに基づいてLVLMの最終出力を動的に調整する新しいメカニズムである。我々は,SAVERが様々なモデル,データセット,タスクの幻覚緩和において,最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-08-05T07:41:25Z)
Exploring Causes and Mitigation of Hallucinations in Large Vision Language Models [24.241691571850403]
Large Vision-Language Models (LVLM)は、画像エンコーダとLarge Language Models (LLM)を統合し、マルチモーダル入力を処理し、複雑な視覚タスクを実行する。それらはしばしば、既存のオブジェクトや属性を記述することによって幻覚を生じさせ、その信頼性を損なう。本研究では、画像キャプションにおける幻覚パターンを分析し、生成過程における全てのトークンが画像入力の影響を受けないことを示す。
論文参考訳（メタデータ） (2025-02-24T05:00:52Z)
Self-Correcting Decoding with Generative Feedback for Mitigating Hallucinations in Large Vision-Language Models [66.71616369573715]
LVLM(Large Vision-Language Models)は、与えられた視覚入力と一致しない幻覚的テキスト応答を生成する傾向がある。テキストから画像への生成モデルからのフィードバックをデコードプロセスに組み込んだ,新たなトレーニングフリーアルゴリズムである生成フィードバック付き自己修正デコード(DeGF)を導入する。
論文参考訳（メタデータ） (2025-02-10T03:43:55Z)
See or Guess: Counterfactually Regularized Image Captioning [32.82695612178604]
本稿では、因果推論を利用して、既存のモデルを介入作業に役立てる汎用画像キャプションフレームワークを提案する。本手法は幻覚を効果的に低減し,画像への忠実さを向上し,小型および大規模の画像・テキスト・モデル間で高い可搬性を示す。
論文参考訳（メタデータ） (2024-08-29T17:59:57Z)
Improving face generation quality and prompt following with synthetic captions [57.47448046728439]
画像から正確な外観記述を生成するために,トレーニング不要のパイプラインを導入する。次に、これらの合成キャプションを使用して、テキストから画像への拡散モデルを微調整する。提案手法は,高品質で現実的な人間の顔を生成するモデルの能力を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-05-17T15:50:53Z)
Unveiling the Truth: Exploring Human Gaze Patterns in Fake Images [34.02058539403381]
我々は、人間の意味的知識を活用して、偽画像検出のフレームワークに含まれる可能性を調べる。予備的な統計的分析により、人間が本物の画像や変化した画像をどのように知覚するかの特徴的なパターンを探索する。
論文参考訳（メタデータ） (2024-03-13T19:56:30Z)
Visually Dehallucinative Instruction Generation [0.8192907805418583]
本稿では,画像コンテンツのみにスコープを制約するCAP2QAと呼ばれる,視覚的に幻覚的命令を生成する,新しいスケーラブルな手法を提案する。提案手法は視覚認知能力と表現力を向上させつつ視覚幻覚を著しく低減することを示す。
論文参考訳（メタデータ） (2024-02-13T10:25:45Z)
Detecting Generated Images by Real Images Only [64.12501227493765]
既存の画像検出手法は、生成画像中の視覚的アーティファクトを検出したり、大規模なトレーニングによって、実画像と生成画像の両方から識別的特徴を学習する。本稿では,新たな視点から生成した画像検出問題にアプローチする。実画像の共通性を見つけ、特徴空間内の密接な部分空間にマッピングすることで、生成した画像は生成モデルに関係なくサブ空間の外側に投影される。
論文参考訳（メタデータ） (2023-11-02T03:09:37Z)
Word-Level Explanations for Analyzing Bias in Text-to-Image Models [72.71184730702086]
Text-to-image(T2I)モデルは、人種や性別に基づいて少数派を過小評価する画像を生成することができる。本稿では,入力プロンプトのどの単語が生成画像のバイアスの原因となるかを検討する。
論文参考訳（メタデータ） (2023-06-03T21:39:07Z)
Transferring Visual Attributes from Natural Language to Verified Image Generation [4.834625048634076]
本稿では,自然なプロンプトを視覚的プロンプトに変換する自然言語・検証画像生成手法(NL2VI)を提案する。 T2Iモデルは視覚的プロンプトのための画像を生成し、VQAアルゴリズムで検証する。実験により、自然なプロンプトと画像生成を一致させることで、生成した画像の一貫性を最大11%向上させることができることが示された。
論文参考訳（メタデータ） (2023-05-24T11:08:26Z)
Text-to-image Diffusion Models in Generative AI: A Survey [86.11421833017693]
本調査は,テキストから画像を生成する際の拡散モデルの進展を概観する。ビデオなどの様々なモダリティのためのテキスト誘導生成や、テキスト誘導画像編集など、画像生成以外の応用について論じる。
論文参考訳（メタデータ） (2023-03-14T13:49:54Z)
Language Does More Than Describe: On The Lack Of Figurative Speech in Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文参考訳（メタデータ） (2022-10-19T14:20:05Z)
DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Diffusion Models [12.310393737912412]
我々は,テキスト・ツー・イメージ拡散モデルにより生成された偽画像の正当性に関する体系的な研究を開拓した。視覚的モダリティのために、これらのテキスト・画像拡散モデルの偽画像が共通の手がかりを共有していることを示す普遍的検出を提案する。言語的モダリティについて,テキスト・ツー・イメージ拡散モデルの画像信頼度に及ぼすテキストキャプションの影響を解析する。
論文参考訳（メタデータ） (2022-10-13T13:08:54Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。