論文の概要: Davidsonian Scene Graph: Improving Reliability in Fine-grained
Evaluation for Text-Image Generation
- arxiv url: http://arxiv.org/abs/2310.18235v1
- Date: Fri, 27 Oct 2023 16:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:05:43.662986
- Title: Davidsonian Scene Graph: Improving Reliability in Fine-grained
Evaluation for Text-Image Generation
- Title(参考訳): Davidsonian Scene Graph: テキスト画像生成のためのきめ細かい評価における信頼性の向上
- Authors: Jaemin Cho, Yushi Hu, Roopal Garg, Peter Anderson, Ranjay Krishna,
Jason Baldridge, Mohit Bansal, Jordi Pont-Tuset, Su Wang
- Abstract要約: Davidsonian Scene Graph(DSG)に基づく評価フレームワークを開発する。
DSGはグラフベースの自動QG/Aであり、任意のQG/Aモジュールに適応するようにモジュール実装されている。
本稿では,1060個のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
- 参考スコア(独自算出の注目度): 67.07966339863796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating text-to-image models is notoriously difficult. A strong recent
approach for assessing text-image faithfulness is based on QG/A (question
generation and answering), which uses pre-trained foundational models to
automatically generate a set of questions and answers from the prompt, and
output images are scored based on whether these answers extracted with a visual
question answering model are consistent with the prompt-based answers. This
kind of evaluation is naturally dependent on the quality of the underlying QG
and QA models. We identify and address several reliability challenges in
existing QG/A work: (a) QG questions should respect the prompt (avoiding
hallucinations, duplications, and omissions) and (b) VQA answers should be
consistent (not asserting that there is no motorcycle in an image while also
claiming the motorcycle is blue). We address these issues with Davidsonian
Scene Graph (DSG), an empirically grounded evaluation framework inspired by
formal semantics. DSG is an automatic, graph-based QG/A that is modularly
implemented to be adaptable to any QG/A module. DSG produces atomic and unique
questions organized in dependency graphs, which (i) ensure appropriate semantic
coverage and (ii) sidestep inconsistent answers. With extensive experimentation
and human evaluation on a range of model configurations (LLM, VQA, and T2I), we
empirically demonstrate that DSG addresses the challenges noted above. Finally,
we present DSG-1k, an open-sourced evaluation benchmark that includes 1,060
prompts, covering a wide range of fine-grained semantic categories with a
balanced distribution. We will release the DSG-1k prompts and the corresponding
DSG questions.
- Abstract(参考訳): テキストから画像へのモデルの評価は、非常に難しい。
テキスト画像の忠実性を評価するための最近の強固なアプローチは、事前学習された基礎モデルを用いてプロンプトから質問と回答のセットを自動的に生成するqg/a(question generation and answering)に基づいており、これらの回答がプロンプトベースの回答と一致するかどうかに基づいて出力画像がスコア付けされる。
この種の評価は、基礎となるQGモデルとQAモデルの品質に自然に依存する。
既存のQG/A作業における信頼性上の課題を特定し,対処する。
(a)qg質問は、プロンプト(幻覚、重複、欠落を回避)を尊重すべきである。
(b)VQAの答えは一貫していなければならない(画像にはオートバイがないが、オートバイは青だと主張する)。
我々はこれらの問題を,形式的意味論に触発された経験的基盤評価フレームワークであるDavidsonian Scene Graph (DSG)で解決する。
DSGはグラフベースの自動QG/Aであり、任意のQG/Aモジュールに適応するようにモジュール実装されている。
DSGは依存グラフにまとめられた原子的およびユニークな質問を生成する。
(i)適切な意味的カバレッジを確保し、
(ii)不一致解答。
モデル構成(LLM, VQA, T2I)の広範な実験と人間による評価により,DSGが上記の課題に対処できることを実証的に実証した。
最後に,1060のプロンプトを含むオープンソースの評価ベンチマークDSG-1kを提案する。
我々はDSG-1kプロンプトと対応するDSG質問をリリースする。
関連論文リスト
- Diversity Enhanced Narrative Question Generation for Storybooks [4.043005183192124]
マルチクエスト生成モデル(mQG)を導入し,複数の,多様な,回答可能な質問を生成する。
生成した質問の応答性を検証するために,SQuAD2.0の微調整された質問応答モデルを用いる。
mQGは、強力なベースラインの中で、様々な評価指標で有望な結果を示している。
論文 参考訳(メタデータ) (2023-10-25T08:10:04Z) - Modeling What-to-ask and How-to-ask for Answer-unaware Conversational
Question Generation [30.086071993793823]
What-to-askとHow-to-askは、回答を意識しない2つの主要な課題である。
本稿では,2段階CQGフレームワークであるSG-CQGを紹介する。
論文 参考訳(メタデータ) (2023-05-04T18:06:48Z) - GrapeQA: GRaph Augmentation and Pruning to Enhance Question-Answering [19.491275771319074]
Commonsense Question-Awering (QA)メソッドは、事前学習された言語モデル(LM)のパワーと知識グラフ(KG)が提供する推論を組み合わせる。
典型的なアプローチでは、QAペアに関連するノードをKGから収集してワーキンググラフを作り、続いてグラフニューラルネットワーク(GNN)を用いて推論する。
We propose GrapeQA with two simple improvements on the WG: (i) Prominent Entities for Graph Augmentation identifieds relevant text chunks from the QA pair and augments the WG with corresponding latent representations from the LM, and (ii) Context-Aware Node Prunings the QA less relevant to the QA。
論文 参考訳(メタデータ) (2023-03-22T05:35:29Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - Unified Question Generation with Continual Lifelong Learning [41.81627903996791]
既存のQGメソッドは主に、特定のQGデータセットの構築やトレーニングに重点を置いている。
本稿では,生涯学習技術に基づくUnifiedQGというモデルを提案し,QGタスクを継続的に学習する。
さらに,1つの訓練済みUnified-QGモデルの能力を変化させて,QAシステムの性能を8ドル(約8,800円)で向上させる。
論文 参考訳(メタデータ) (2022-01-24T14:05:18Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z) - Asking and Answering Questions to Evaluate the Factual Consistency of
Summaries [80.65186293015135]
本稿では,QAGS (kags) と呼ばれる自動評価プロトコルを提案する。
QAGSは、要約とそのソースについて質問すると、要約が実際にソースと一致している場合、同様の回答が得られます。
QAGSは、使いやすく、現実的に一貫性のあるテキストを自動的に生成するための有望なツールであると考えています。
論文 参考訳(メタデータ) (2020-04-08T20:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。