論文の概要: FAGER: Factually Grounded Evaluation and Refinement of Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2605.19111v1
- Date: Mon, 18 May 2026 20:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.985174
- Title: FAGER: Factually Grounded Evaluation and Refinement of Text-to-Image Models
- Title(参考訳): FAGER: テキスト・ツー・イメージモデルの評価と再定義
- Authors: Youngsun Lim, Cusuh Ham, Pin-Yu Chen, Deepti Ghadiyaram,
- Abstract要約: 既存のテキスト・トゥ・イメージ(T2I)評価指標は、主に、生成された画像がプロンプトに明示された情報と一致しているかどうかを評価する。
FAGER(FActually Grounded Evaluation and Refinement, FAGER)は、生成した画像が、そのプロンプトによって暗示された、あるいは暗示された、視覚的に検証可能な事実を正しく反映しているかを評価するエージェントフレームワークである。
我々は、FAGERがT2I出力を完全にトレーニング不要に洗練するために使用できることを示し、データセット間で実質的な事実性の向上をもたらす。
- 参考スコア(独自算出の注目度): 47.85972766736713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-to-image (T2I) evaluation metrics mainly assess whether generated images align with information explicitly stated in the prompt, but often fail to capture factual requirements that are implicit, externally grounded, or identity-defining. As a result, they are not well suited for evaluating factual correctness in prompts involving scientific knowledge, historical facts, products, or culture-specific concepts. We propose FActually Grounded Evaluation and Refinement (FAGER), an agentic framework that evaluates whether generated images correctly reflect visually verifiable facts grounded in or implied by the prompt, while also providing actionable feedback for improvement. FAGER first constructs a structured factual rubric by combining LLM-based fact proposal with reference-guided visual fact extraction and verification, then converts the rubric into question-answer pairs for VLM-based evaluation. To validate FAGER as a factuality metric, we introduce a Factual A/B test, which measures whether a metric prefers factual reference images over corresponding generated images. Across five datasets spanning science, history, products, culture, and knowledge-intensive concepts, FAGER consistently outperforms prior metrics on this test. We further show that FAGER can be used to refine T2I outputs in a fully training-free manner, yielding substantial factuality gains across datasets.
- Abstract(参考訳): 既存のテキスト・トゥ・イメージ(T2I)評価指標は、生成した画像がプロンプトで明示された情報と一致しているかどうかを主に評価するが、暗黙的、外在的、またはアイデンティティ定義の事実要件を捉えないことが多い。
結果として、科学的知識、歴史的事実、製品、文化特有の概念を含むプロンプトにおいて、事実の正しさを評価するのにはあまり適していない。
FAGER(FActually Grounded Evaluation and Refinement, FAGER)は、生成した画像が、そのプロンプトによって根拠付けられた、または示唆された、視覚的に検証可能な事実を正しく反映しているかを評価するエージェントフレームワークであり、改善のための実用的なフィードバックを提供する。
FAGERはまず、LCMに基づく事実提案と参照誘導された視覚的事実抽出と検証を組み合わせることで、構造化された事実ルーリックを構築し、次に、VLMに基づく評価のための質問応答ペアに変換する。
実測値としてFAGERを検証するために、実測値が実写画像よりも実写参照画像を好むかどうかを測定するFactual A/Bテストを導入する。
科学、歴史、製品、文化、知識集約的な概念にまたがる5つのデータセットに対して、FAGERは、このテストの以前の指標を一貫して上回っている。
さらに、FAGERが完全にトレーニング不要な方法でT2I出力を洗練するために使用できることを示し、データセット間で実質的な事実性の向上をもたらす。
関連論文リスト
- KG-CRAFT: Knowledge Graph-based Contrastive Reasoning with LLMs for Enhancing Automated Fact-checking [3.7841869476488044]
KG-CRAFTは,大規模言語モデル(LLM)を活用することにより,自動クレーム検証を改善する方法である
まず、クレームと関連するレポートから知識グラフを構築し、その後、知識グラフ構造に基づいて文脈的に関連するコントラスト的な質問を定式化する。
2つの実世界のデータセットに対する広範囲な評価は,本手法が予測性能の新たな最先端を実現することを示す。
論文 参考訳(メタデータ) (2026-01-27T10:32:42Z) - Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [2.0861090421004937]
大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。
本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文 参考訳(メタデータ) (2025-08-05T19:20:05Z) - IA-T2I: Internet-Augmented Text-to-Image Generation [13.765327654914199]
現在のテキスト・ツー・イメージ(T2I)生成モデルは有望な結果をもたらすが、テキスト・プロンプトに暗示される知識が不確実なシナリオでは失敗する。
本稿では,T2I モデルに参照画像を提供することで,そのような不確実な知識を明確化するための Internet-Augmented Text-to-image Generation (IA-T2I) フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:31:49Z) - Pioneering Reliable Assessment in Text-to-Image Knowledge Editing: Leveraging a Fine-Grained Dataset and an Innovative Criterion [21.37254997228105]
テキスト・トゥ・イメージ(T2I)拡散モデルは、事実知識をパラメータにエンコードする。
知識編集技術は、対象とする方法でモデル知識を更新することを目的としている。
我々は3つのフェーズに網羅してT2I知識編集フレームワークを設計する。
T2I知識編集のためのシンプルだが効果的なアプローチである textbfMPE を導入する。
論文 参考訳(メタデータ) (2024-09-26T15:07:30Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Improving Factual Consistency for Knowledge-Grounded Dialogue Systems
via Knowledge Enhancement and Alignment [77.56326872997407]
事前訓練言語モデル(PLM)に基づく知識基底対話システムは、提供された知識源と実際に矛盾しない応答を生成する傾向にある。
トランスフォーマー内のフィードフォワードネットワーク(FFN)が事実知識表現の責任を負っていると判断する以前の研究から着想を得て,事実表現能力を効率的に改善するための2つの方法を検討した。
論文 参考訳(メタデータ) (2023-10-12T14:44:05Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。
パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。
我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文 参考訳(メタデータ) (2023-03-20T17:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。