論文の概要: Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2310.18235v4
- Date: Wed, 13 Mar 2024 21:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 02:22:46.590296
- Title: Davidsonian Scene Graph: Improving Reliability in Fine-grained Evaluation for Text-to-Image Generation
- Title(参考訳): Davidsonian Scene Graph: テキスト・画像生成のためのきめ細かい評価における信頼性の向上
- Authors: Jaemin Cho, Yushi Hu, Roopal Garg, Peter Anderson, Ranjay Krishna, Jason Baldridge, Mohit Bansal, Jordi Pont-Tuset, Su Wang,
- Abstract要約: テキスト・ツー・イメージ・モデルを評価するための形式的意味論にインスパイアされた評価フレームワークを開発する。
Davidsonian Scene Graph (DSG) が依存性グラフにまとめられた原子的およびユニークな質問を生成することを示す。
また,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
- 参考スコア(独自算出の注目度): 64.64849950642619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating text-to-image models is notoriously difficult. A strong recent approach for assessing text-image faithfulness is based on QG/A (question generation and answering), which uses pre-trained foundational models to automatically generate a set of questions and answers from the prompt, and output images are scored based on whether these answers extracted with a visual question answering model are consistent with the prompt-based answers. This kind of evaluation is naturally dependent on the quality of the underlying QG and VQA models. We identify and address several reliability challenges in existing QG/A work: (a) QG questions should respect the prompt (avoiding hallucinations, duplications, and omissions) and (b) VQA answers should be consistent (not asserting that there is no motorcycle in an image while also claiming the motorcycle is blue). We address these issues with Davidsonian Scene Graph (DSG), an empirically grounded evaluation framework inspired by formal semantics, which is adaptable to any QG/A frameworks. DSG produces atomic and unique questions organized in dependency graphs, which (i) ensure appropriate semantic coverage and (ii) sidestep inconsistent answers. With extensive experimentation and human evaluation on a range of model configurations (LLM, VQA, and T2I), we empirically demonstrate that DSG addresses the challenges noted above. Finally, we present DSG-1k, an open-sourced evaluation benchmark that includes 1,060 prompts, covering a wide range of fine-grained semantic categories with a balanced distribution. We release the DSG-1k prompts and the corresponding DSG questions.
- Abstract(参考訳): テキストと画像のモデルを評価することは、非常に難しい。
テキスト画像の忠実度を評価するための最近の強力なアプローチは、事前学習された基礎モデルを用いてプロンプトから質問と回答の集合を自動的に生成するQG/A(質問生成と回答)に基づいており、視覚的質問応答モデルで抽出した回答がプロンプトベースの回答と一致しているかどうかに基づいて、出力画像がスコアされる。
この種の評価は、基礎となるQGとVQAモデルの品質に依存している。
既存のQG/A作業において、いくつかの信頼性上の課題を特定し、対処する。
(a)QG質問は、指示(幻覚、重複、省略)を尊重し、
(b)VQAの答えは一貫していなければならない(オートバイは青であると主張しながら、画像にオートバイがないという主張はしない)。
我々はこれらの問題を,任意のQG/Aフレームワークに適応可能な形式的意味論に触発された経験的基盤評価フレームワークであるDavidsonian Scene Graph (DSG)で解決する。
DSGは依存グラフにまとめられた原子的およびユニークな質問を生成する。
一 適切な意味範囲を確保すること
(二)相反する回答
モデル構成(LLM, VQA, T2I)の広範囲な実験と人間による評価により,DSGが上記の課題に対処できることを実証的に実証した。
最後に,1060のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
我々はDSG-1kプロンプトと対応するDSG質問をリリースする。
関連論文リスト
- Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - Modeling What-to-ask and How-to-ask for Answer-unaware Conversational
Question Generation [30.086071993793823]
What-to-askとHow-to-askは、回答を意識しない2つの主要な課題である。
本稿では,2段階CQGフレームワークであるSG-CQGを紹介する。
論文 参考訳(メタデータ) (2023-05-04T18:06:48Z) - GrapeQA: GRaph Augmentation and Pruning to Enhance Question-Answering [19.491275771319074]
Commonsense Question-Awering (QA)メソッドは、事前学習された言語モデル(LM)のパワーと知識グラフ(KG)が提供する推論を組み合わせる。
典型的なアプローチでは、QAペアに関連するノードをKGから収集してワーキンググラフを作り、続いてグラフニューラルネットワーク(GNN)を用いて推論する。
We propose GrapeQA with two simple improvements on the WG: (i) Prominent Entities for Graph Augmentation identifieds relevant text chunks from the QA pair and augments the WG with corresponding latent representations from the LM, and (ii) Context-Aware Node Prunings the QA less relevant to the QA。
論文 参考訳(メタデータ) (2023-03-22T05:35:29Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - Unified Question Generation with Continual Lifelong Learning [41.81627903996791]
既存のQGメソッドは主に、特定のQGデータセットの構築やトレーニングに重点を置いている。
本稿では,生涯学習技術に基づくUnifiedQGというモデルを提案し,QGタスクを継続的に学習する。
さらに,1つの訓練済みUnified-QGモデルの能力を変化させて,QAシステムの性能を8ドル(約8,800円)で向上させる。
論文 参考訳(メタデータ) (2022-01-24T14:05:18Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。