論文の概要: Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation
- arxiv url: http://arxiv.org/abs/2509.21257v1
- Date: Thu, 25 Sep 2025 14:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.994927
- Title: Hallucination as an Upper Bound: A New Perspective on Text-to-Image Evaluation
- Title(参考訳): 上界としての幻覚 : テキスト・画像評価の新しい視点
- Authors: Seyed Amir Kasaei, Mohammad Hossein Rohban,
- Abstract要約: 我々は、テキスト・画像モデルにおける幻覚をバイアス駆動偏差として定義する。
属性,関係性,対象幻覚の3つのカテゴリからなる分類法を提案する。
このフレーミングは評価のための上限を導入し、隠れバイアスを表面化する。
- 参考スコア(独自算出の注目度): 8.234083470720938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In language and vision-language models, hallucination is broadly understood as content generated from a model's prior knowledge or biases rather than from the given input. While this phenomenon has been studied in those domains, it has not been clearly framed for text-to-image (T2I) generative models. Existing evaluations mainly focus on alignment, checking whether prompt-specified elements appear, but overlook what the model generates beyond the prompt. We argue for defining hallucination in T2I as bias-driven deviations and propose a taxonomy with three categories: attribute, relation, and object hallucinations. This framing introduces an upper bound for evaluation and surfaces hidden biases, providing a foundation for richer assessment of T2I models.
- Abstract(参考訳): 言語モデルや視覚言語モデルでは、幻覚は与えられた入力からではなく、モデルの事前の知識やバイアスから生成される内容として広く理解されている。
この現象はこれらの領域で研究されているが、テキスト・トゥ・イメージ(T2I)生成モデルのために明確にフレーム化されていない。
既存の評価は主にアライメントに焦点を当て、プロンプト指定された要素が現れるかどうかをチェックするが、モデルがプロンプトを超えて生成するものを見落としている。
我々は、T2Iにおける幻覚をバイアス駆動偏差として定義し、属性、関係、対象幻覚の3つのカテゴリからなる分類法を提案する。
このフレーミングは、評価のための上限を導入し、隠れバイアスを表面化し、T2Iモデルのよりリッチな評価の基礎を提供する。
関連論文リスト
- A Survey of Multimodal Hallucination Evaluation and Detection [52.03164192840023]
MLLM(Multi-modal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なパラダイムとして登場した。
これらのモデルはしばしば幻覚に悩まされ、もっともらしいように見えるコンテンツを生成するが、入力内容や確立された世界的知識と矛盾する。
本調査では,イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)生成タスクを対象とした幻覚評価ベンチマークと検出方法の詳細なレビューを行う。
論文 参考訳(メタデータ) (2025-07-25T07:22:42Z) - Mitigating Object Hallucinations via Sentence-Level Early Intervention [10.642552315531404]
マルチモーダルな大言語モデル(MLLM)は、多モーダルな理解に革命をもたらしたが、幻覚と闘い続けている。
人間のアノテーションに依存しないフレームワークであるSENTINELを提案する。
文レベルの早期iNtervention through IN- domain preference Learningは、オリジナルのモデルと比較して幻覚を90%以上減らすことができる。
論文 参考訳(メタデータ) (2025-07-16T17:55:43Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models [0.0]
対象物の存在と属性の幻覚を評価する粗粒度ベンチマークであるH-POPEを提案する。
評価の結果,モデルが物体の存在に幻覚を与える傾向がみられ,さらに微粒な属性が生じる傾向が示唆された。
論文 参考訳(メタデータ) (2024-11-06T17:55:37Z) - Knowledge Overshadowing Causes Amalgamated Hallucination in Large Language Models [65.32990889402927]
「我々はこの現象を知識の誇張として造る。」
その結果, 幻覚率の増大は, 不均衡比と支配的条件記述の長さに左右されることがわかった。
本稿では,その発生前に幻覚をキャッチするための信号として,オーバーシェーディング条件を用いることを提案する。
論文 参考訳(メタデータ) (2024-07-10T20:37:42Z) - VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models [59.05674402770661]
本稿では,大規模ビデオ言語モデル(LVLM)における幻覚検出のための最初の総合的ベンチマークであるVideoHallucerを紹介する。
VideoHallucerは幻覚を2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-06-24T06:21:59Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。