論文の概要: TISE: A Toolbox for Text-to-Image Synthesis Evaluation
- arxiv url: http://arxiv.org/abs/2112.01398v1
- Date: Thu, 2 Dec 2021 16:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 17:05:11.393522
- Title: TISE: A Toolbox for Text-to-Image Synthesis Evaluation
- Title(参考訳): TISE:テキスト・画像合成評価ツールボックス
- Authors: Tan M. Dinh, Rang Nguyen, Binh-Son Hua
- Abstract要約: 単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.092600296992925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we conduct a study on state-of-the-art methods for single- and
multi-object text-to-image synthesis and propose a common framework for
evaluating these methods. We first identify several common issues in the
current evaluation of text-to-image models, which are: (i) a commonly used
metric for image quality assessment, e.g., Inception Score (IS), is often
either miscalibrated for the single-object case or misused for the multi-object
case; (ii) the overfitting phenomenon appears in the existing R-precision (RP)
and SOA metrics, which are used to assess text relevance and object accuracy
aspects, respectively; (iii) many vital factors in the evaluation of the
multi-object case are primarily dismissed, e.g., object fidelity, positional
alignment, counting alignment; (iv) the ranking of the methods based on current
metrics is highly inconsistent with real images. Then, to overcome these
limitations, we propose a combined set of existing and new metrics to
systematically evaluate the methods. For existing metrics, we develop an
improved version of IS named IS* by using temperature scaling to calibrate the
confidence of the classifier used by IS; we also propose a solution to mitigate
the overfitting issues of RP and SOA. Regarding a set of new metrics
compensating for the lacking of vital evaluating factors in the multi-object
case, we develop CA for counting alignment, PA for positional alignment,
object-centric IS (O-IS), object-centric FID (O-FID) for object fidelity. Our
benchmark, therefore, results in a highly consistent ranking among existing
methods, being well-aligned to human evaluation. We also create a strong
baseline model (AttnGAN++) for the benchmark by a simple modification from the
well-known AttnGAN. We will release this toolbox for unified evaluation,
so-called TISE, to standardize the evaluation of the text-to-image synthesis
models.
- Abstract(参考訳): 本稿では,単一および多目的テキスト対画像合成のための最先端手法の検討を行い,それらの評価のための共通フレームワークを提案する。
まず、テキストから画像へのモデルの現在の評価における一般的な問題をいくつか挙げる。
(i)画像品質評価に一般的に用いられる指標、例えば、インセプションスコア(is)は、しばしば、単一対象の場合で誤用されるか、多目的の場合で誤用される。
(ii) 既存のR精度(RP)とSOAメトリクスにオーバーフィッティング現象が現れ、それぞれテキストの関連性およびオブジェクトの正確性を評価するのに使用される。
(iii) マルチオブジェクトケースの評価において重要な要素の多くは、主に対象の忠実性、位置の調整、アライメントの数え上げ等によって取り消される。
(4)現在の計測値に基づく手法のランク付けは,実画像と非常に矛盾する。
そして,これらの制約を克服するために,既存のメトリクスと新しいメトリクスの組み合わせを提案し,その手法を体系的に評価する。
既存のメトリクスに対して、温度スケーリングを用いてISが使用する分類器の信頼性を調整し、IS*と呼ばれるISの改良版を開発し、RPとSOAの過度な問題を軽減するソリューションを提案する。
マルチオブジェクトの場合において重要な評価因子の欠如を補う新しい指標のセットについて,位置アライメントのためのCA,位置アライメントのためのPA,オブジェクト中心IS(O-IS),オブジェクト中心FID(O-FID)を開発した。
したがって、我々のベンチマークは既存の手法の間で非常に一貫したランキングとなり、人間の評価に適合している。
また、よく知られたAttnGANからの簡単な修正により、ベンチマーク用の強力なベースラインモデル(AttnGAN++)を作成します。
テキストから画像への合成モデルの評価を標準化するために、このツールボックス、いわゆるtiseをリリースします。
関連論文リスト
- Dynamic Correlation Learning and Regularization for Multi-Label Confidence Calibration [60.95748658638956]
本稿では,多ラベルシナリオにおける信頼度を適切に評価することを目的としたマルチラベル信頼性タスクを提案する。
既存のシングルラベルキャリブレーション手法では、セマンティックな混乱に対処するために欠かせないカテゴリ相関を考慮できない。
本稿では,多粒度セマンティック相関を利用した動的相関学習と正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-07-09T13:26:21Z) - CrossScore: Towards Multi-View Image Evaluation and Scoring [24.853612457257697]
相互参照画像品質評価法は画像評価景観のギャップを埋める。
本手法は,地上の真理参照を必要とせず,精度の高い画像品質評価を可能にする。
論文 参考訳(メタデータ) (2024-04-22T17:59:36Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Low-shot Object Learning with Mutual Exclusivity Bias [27.67152913041082]
本稿では,相互排他バイアスの計算フレーミングであるLSME(Low-shot Object Learning with Mutual Exclusivity Bias)を紹介する。
我々は、MLコミュニティがこの挑戦的な学習課題に対処できるように、新しいデータセット、包括的なベースライン、最先端の手法を提供する。
論文 参考訳(メタデータ) (2023-12-06T14:54:10Z) - For A More Comprehensive Evaluation of 6DoF Object Pose Tracking [22.696375341994035]
上記の問題に対処するために、統一されたベンチマークに貢献する。
YCBVのより正確なアノテーションとして,多視点多目的グローバルポーズ改善法を提案する。
実験では,リアルな半合成データセットを用いて,提案手法の精度と信頼性を検証した。
論文 参考訳(メタデータ) (2023-09-14T15:35:08Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。
投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。
ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。