論文の概要: TISE: A Toolbox for Text-to-Image Synthesis Evaluation
- arxiv url: http://arxiv.org/abs/2112.01398v1
- Date: Thu, 2 Dec 2021 16:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 17:05:11.393522
- Title: TISE: A Toolbox for Text-to-Image Synthesis Evaluation
- Title(参考訳): TISE:テキスト・画像合成評価ツールボックス
- Authors: Tan M. Dinh, Rang Nguyen, Binh-Son Hua
- Abstract要約: 単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.092600296992925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we conduct a study on state-of-the-art methods for single- and
multi-object text-to-image synthesis and propose a common framework for
evaluating these methods. We first identify several common issues in the
current evaluation of text-to-image models, which are: (i) a commonly used
metric for image quality assessment, e.g., Inception Score (IS), is often
either miscalibrated for the single-object case or misused for the multi-object
case; (ii) the overfitting phenomenon appears in the existing R-precision (RP)
and SOA metrics, which are used to assess text relevance and object accuracy
aspects, respectively; (iii) many vital factors in the evaluation of the
multi-object case are primarily dismissed, e.g., object fidelity, positional
alignment, counting alignment; (iv) the ranking of the methods based on current
metrics is highly inconsistent with real images. Then, to overcome these
limitations, we propose a combined set of existing and new metrics to
systematically evaluate the methods. For existing metrics, we develop an
improved version of IS named IS* by using temperature scaling to calibrate the
confidence of the classifier used by IS; we also propose a solution to mitigate
the overfitting issues of RP and SOA. Regarding a set of new metrics
compensating for the lacking of vital evaluating factors in the multi-object
case, we develop CA for counting alignment, PA for positional alignment,
object-centric IS (O-IS), object-centric FID (O-FID) for object fidelity. Our
benchmark, therefore, results in a highly consistent ranking among existing
methods, being well-aligned to human evaluation. We also create a strong
baseline model (AttnGAN++) for the benchmark by a simple modification from the
well-known AttnGAN. We will release this toolbox for unified evaluation,
so-called TISE, to standardize the evaluation of the text-to-image synthesis
models.
- Abstract(参考訳): 本稿では,単一および多目的テキスト対画像合成のための最先端手法の検討を行い,それらの評価のための共通フレームワークを提案する。
まず、テキストから画像へのモデルの現在の評価における一般的な問題をいくつか挙げる。
(i)画像品質評価に一般的に用いられる指標、例えば、インセプションスコア(is)は、しばしば、単一対象の場合で誤用されるか、多目的の場合で誤用される。
(ii) 既存のR精度(RP)とSOAメトリクスにオーバーフィッティング現象が現れ、それぞれテキストの関連性およびオブジェクトの正確性を評価するのに使用される。
(iii) マルチオブジェクトケースの評価において重要な要素の多くは、主に対象の忠実性、位置の調整、アライメントの数え上げ等によって取り消される。
(4)現在の計測値に基づく手法のランク付けは,実画像と非常に矛盾する。
そして,これらの制約を克服するために,既存のメトリクスと新しいメトリクスの組み合わせを提案し,その手法を体系的に評価する。
既存のメトリクスに対して、温度スケーリングを用いてISが使用する分類器の信頼性を調整し、IS*と呼ばれるISの改良版を開発し、RPとSOAの過度な問題を軽減するソリューションを提案する。
マルチオブジェクトの場合において重要な評価因子の欠如を補う新しい指標のセットについて,位置アライメントのためのCA,位置アライメントのためのPA,オブジェクト中心IS(O-IS),オブジェクト中心FID(O-FID)を開発した。
したがって、我々のベンチマークは既存の手法の間で非常に一貫したランキングとなり、人間の評価に適合している。
また、よく知られたAttnGANからの簡単な修正により、ベンチマーク用の強力なベースラインモデル(AttnGAN++)を作成します。
テキストから画像への合成モデルの評価を標準化するために、このツールボックス、いわゆるtiseをリリースします。
関連論文リスト
- DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - Low-shot Object Learning with Mutual Exclusivity Bias [27.67152913041082]
本稿では,相互排他バイアスの計算フレーミングであるLSME(Low-shot Object Learning with Mutual Exclusivity Bias)を紹介する。
我々は、MLコミュニティがこの挑戦的な学習課題に対処できるように、新しいデータセット、包括的なベースライン、最先端の手法を提供する。
論文 参考訳(メタデータ) (2023-12-06T14:54:10Z) - Revisiting Evaluation Metrics for Semantic Segmentation: Optimization
and Evaluation of Fine-grained Intersection over Union [113.20223082664681]
そこで本研究では,mIoUsの微細化と,それに対応する最悪の指標を提案する。
これらのきめ細かいメトリクスは、大きなオブジェクトに対するバイアスの低減、よりリッチな統計情報、モデルとデータセット監査に関する貴重な洞察を提供する。
ベンチマークでは,1つの測定値に基づかないことの必要性を強調し,微細なmIoUsが大きな物体への偏りを減少させることを確認した。
論文 参考訳(メタデータ) (2023-10-30T03:45:15Z) - For A More Comprehensive Evaluation of 6DoF Object Pose Tracking [22.696375341994035]
上記の問題に対処するために、統一されたベンチマークに貢献する。
YCBVのより正確なアノテーションとして,多視点多目的グローバルポーズ改善法を提案する。
実験では,リアルな半合成データセットを用いて,提案手法の精度と信頼性を検証した。
論文 参考訳(メタデータ) (2023-09-14T15:35:08Z) - CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote
Aggregation [71.13049562721085]
CPPF++は、sim-to-realのポーズ推定のために設計されている。
カテゴリレベルのポーズ推定データセットであるDiversePose 300を提案する。
論文 参考訳(メタデータ) (2022-11-24T03:27:00Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - On the Evaluation of RGB-D-based Categorical Pose and Shape Estimation [5.71097144710995]
この研究では、メトリクスやデータセットを含む、この主要な評価プロトコルを批判的に見ていきます。
我々は、新しいメトリクスセットを提案し、Redwoodデータセットに新しいアノテーションを提供し、公正な比較で最先端の手法を評価する。
論文 参考訳(メタデータ) (2022-02-21T16:31:18Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - Object-QA: Towards High Reliable Object Quality Assessment [71.71188284059203]
オブジェクト認識アプリケーションでは、オブジェクトイメージは通常、異なる品質レベルで表示される。
本稿では,オブジェクト画像の信頼性の高い品質スコアを評価するために,Object-QAという効果的手法を提案する。
論文 参考訳(メタデータ) (2020-05-27T01:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。