Fugu-MT 論文翻訳(概要): TISE: A Toolbox for Text-to-Image Synthesis Evaluation

論文の概要: TISE: A Toolbox for Text-to-Image Synthesis Evaluation

arxiv url: http://arxiv.org/abs/2112.01398v1
Date: Thu, 2 Dec 2021 16:39:35 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-03 17:05:11.393522
Title: TISE: A Toolbox for Text-to-Image Synthesis Evaluation
Title（参考訳）: TISE:テキスト・画像合成評価ツールボックス
Authors: Tan M. Dinh, Rang Nguyen, Binh-Son Hua
Abstract要約: 単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。これらの手法を評価するための共通フレームワークを提案する。
参考スコア（独自算出の注目度）: 9.092600296992925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we conduct a study on state-of-the-art methods for single- and multi-object text-to-image synthesis and propose a common framework for evaluating these methods. We first identify several common issues in the current evaluation of text-to-image models, which are: (i) a commonly used metric for image quality assessment, e.g., Inception Score (IS), is often either miscalibrated for the single-object case or misused for the multi-object case; (ii) the overfitting phenomenon appears in the existing R-precision (RP) and SOA metrics, which are used to assess text relevance and object accuracy aspects, respectively; (iii) many vital factors in the evaluation of the multi-object case are primarily dismissed, e.g., object fidelity, positional alignment, counting alignment; (iv) the ranking of the methods based on current metrics is highly inconsistent with real images. Then, to overcome these limitations, we propose a combined set of existing and new metrics to systematically evaluate the methods. For existing metrics, we develop an improved version of IS named IS* by using temperature scaling to calibrate the confidence of the classifier used by IS; we also propose a solution to mitigate the overfitting issues of RP and SOA. Regarding a set of new metrics compensating for the lacking of vital evaluating factors in the multi-object case, we develop CA for counting alignment, PA for positional alignment, object-centric IS (O-IS), object-centric FID (O-FID) for object fidelity. Our benchmark, therefore, results in a highly consistent ranking among existing methods, being well-aligned to human evaluation. We also create a strong baseline model (AttnGAN++) for the benchmark by a simple modification from the well-known AttnGAN. We will release this toolbox for unified evaluation, so-called TISE, to standardize the evaluation of the text-to-image synthesis models.
Abstract（参考訳）: 本稿では,単一および多目的テキスト対画像合成のための最先端手法の検討を行い,それらの評価のための共通フレームワークを提案する。まず、テキストから画像へのモデルの現在の評価における一般的な問題をいくつか挙げる。 (i)画像品質評価に一般的に用いられる指標、例えば、インセプションスコア(is)は、しばしば、単一対象の場合で誤用されるか、多目的の場合で誤用される。 (ii) 既存のR精度(RP)とSOAメトリクスにオーバーフィッティング現象が現れ、それぞれテキストの関連性およびオブジェクトの正確性を評価するのに使用される。 (iii) マルチオブジェクトケースの評価において重要な要素の多くは、主に対象の忠実性、位置の調整、アライメントの数え上げ等によって取り消される。 (4)現在の計測値に基づく手法のランク付けは,実画像と非常に矛盾する。そして,これらの制約を克服するために,既存のメトリクスと新しいメトリクスの組み合わせを提案し,その手法を体系的に評価する。既存のメトリクスに対して、温度スケーリングを用いてISが使用する分類器の信頼性を調整し、IS*と呼ばれるISの改良版を開発し、RPとSOAの過度な問題を軽減するソリューションを提案する。マルチオブジェクトの場合において重要な評価因子の欠如を補う新しい指標のセットについて,位置アライメントのためのCA,位置アライメントのためのPA,オブジェクト中心IS(O-IS),オブジェクト中心FID(O-FID)を開発した。したがって、我々のベンチマークは既存の手法の間で非常に一貫したランキングとなり、人間の評価に適合している。また、よく知られたAttnGANからの簡単な修正により、ベンチマーク用の強力なベースラインモデル(AttnGAN++)を作成します。テキストから画像への合成モデルの評価を標準化するために、このツールボックス、いわゆるtiseをリリースします。

関連論文リスト

SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文参考訳（メタデータ） (2024-11-25T05:36:00Z)
Open-set object detection: towards unified problem formulation and benchmarking [2.4374097382908477]
統合VOC-COCO評価と,新しい評価指標の他に,明確な階層的オブジェクト定義を提供するOpenImagesRoadベンチマークの2つのベンチマークを紹介する。提案したベンチマークで最先端の手法を広範囲に評価する。この研究は、明確な問題定義を提供し、一貫した評価を保証し、OSOD戦略の有効性に関する新たな結論を導き出す。
論文参考訳（メタデータ） (2024-11-08T13:40:01Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文参考訳（メタデータ） (2024-01-04T08:34:16Z)
Low-shot Object Learning with Mutual Exclusivity Bias [27.67152913041082]
本稿では,相互排他バイアスの計算フレーミングであるLSME(Low-shot Object Learning with Mutual Exclusivity Bias)を紹介する。我々は、MLコミュニティがこの挑戦的な学習課題に対処できるように、新しいデータセット、包括的なベースライン、最先端の手法を提供する。
論文参考訳（メタデータ） (2023-12-06T14:54:10Z)
For A More Comprehensive Evaluation of 6DoF Object Pose Tracking [22.696375341994035]
上記の問題に対処するために、統一されたベンチマークに貢献する。 YCBVのより正確なアノテーションとして,多視点多目的グローバルポーズ改善法を提案する。実験では,リアルな半合成データセットを用いて,提案手法の精度と信頼性を検証した。
論文参考訳（メタデータ） (2023-09-14T15:35:08Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
CPPF++: Uncertainty-Aware Sim2Real Object Pose Estimation by Vote Aggregation [67.12857074801731]
そこで本研究では,シミュレートからリアルなポーズ推定のための新しい手法であるCPPF++を提案する。投票衝突による課題に対処するため,投票の不確実性をモデル化する新たなアプローチを提案する。ノイズの多いペアフィルタリング、オンラインアライメント最適化、機能アンサンブルなど、いくつかの革新的なモジュールを組み込んでいます。
論文参考訳（メタデータ） (2022-11-24T03:27:00Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。 10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文参考訳（メタデータ） (2020-10-24T08:30:20Z)
Towards Question-Answering as an Automatic Metric for Evaluating the Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文参考訳（メタデータ） (2020-10-01T15:33:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。