論文の概要: Advancing Generative Model Evaluation: A Novel Algorithm for Realistic
Image Synthesis and Comparison in OCR System
- arxiv url: http://arxiv.org/abs/2402.17204v3
- Date: Fri, 1 Mar 2024 21:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 19:34:32.261532
- Title: Advancing Generative Model Evaluation: A Novel Algorithm for Realistic
Image Synthesis and Comparison in OCR System
- Title(参考訳): 生成モデル評価の向上:OCRシステムにおける実写画像合成と比較のための新しいアルゴリズム
- Authors: Majid Memari, Khaled R. Ahmed, Shahram Rahimi, Noorbakhsh Amiri
Golilarz
- Abstract要約: 本研究は、生成モデル分野における重要な課題、特に合成画像の生成と評価について論じる。
合成画像のリアリズムを客観的に評価するための先駆的アルゴリズムを提案する。
我々のアルゴリズムは、アラビア文字の手書き数字の現実的な画像の生成と評価の課題に対処するために特に適している。
- 参考スコア(独自算出の注目度): 1.2289361708127877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research addresses a critical challenge in the field of generative
models, particularly in the generation and evaluation of synthetic images.
Given the inherent complexity of generative models and the absence of a
standardized procedure for their comparison, our study introduces a pioneering
algorithm to objectively assess the realism of synthetic images. This approach
significantly enhances the evaluation methodology by refining the Fr\'echet
Inception Distance (FID) score, allowing for a more precise and subjective
assessment of image quality. Our algorithm is particularly tailored to address
the challenges in generating and evaluating realistic images of Arabic
handwritten digits, a task that has traditionally been near-impossible due to
the subjective nature of realism in image generation. By providing a systematic
and objective framework, our method not only enables the comparison of
different generative models but also paves the way for improvements in their
design and output. This breakthrough in evaluation and comparison is crucial
for advancing the field of OCR, especially for scripts that present unique
complexities, and sets a new standard in the generation and assessment of
high-quality synthetic images.
- Abstract(参考訳): 本研究は、生成モデル分野における重要な課題、特に合成画像の生成と評価について論じる。
生成モデルの固有の複雑さとそれらの比較のための標準化された手順の欠如を考えると、本研究は合成画像のリアリズムを客観的に評価するための先駆的アルゴリズムを提案する。
このアプローチは、Fr'echet Inception Distance(FID)スコアを精細化し、画像品質をより正確かつ主観的に評価することで、評価手法を大幅に強化する。
このアルゴリズムは,画像生成における現実主義の主観的性質から,従来ほとんど不可能であったアラビア文字の現実的画像の生成と評価の課題に対処するために,特に調整されている。
体系的かつ客観的なフレームワークを提供することにより, 異なる生成モデルの比較を可能にするだけでなく, 設計と出力の改善への道を開く。
この評価と比較のブレークスルーは、OCRの分野、特に特異な複雑さを示すスクリプトの進歩に不可欠であり、高品質な合成画像の生成と評価において新しい標準を設定している。
関連論文リスト
- Evaluating Text-to-Image Generative Models: An Empirical Study on Human
Image Synthesis [22.550416199280953]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念のカバレッジと公平性を通じてテキストの条件を調べる。
コード、生成モデルの評価に使用されるデータ、欠陥のある領域に注釈付けされたデータセットを近くリリースします。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Improving Synthetically Generated Image Detection in Cross-Concept
Settings [20.21594285488186]
我々は、例えば、人間の顔に検出器を訓練する際に、様々な概念クラスをまたがって一般化するという課題に焦点をあてる。
本稿では,現実的な合成画像上での学習により,検出器の堅牢性を向上できるという前提に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-24T12:45:00Z) - Robust Single Image Dehazing Based on Consistent and Contrast-Assisted
Reconstruction [95.5735805072852]
画像復調モデルのロバスト性を改善するための新しい密度変分学習フレームワークを提案する。
具体的には、デハジングネットワークは、一貫性の規則化されたフレームワークの下で最適化されている。
我々の手法は最先端のアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2022-03-29T08:11:04Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Image Quality Assessment in the Modern Age [53.19271326110551]
本チュートリアルは、画像品質評価(IQA)の基礎的理論、方法論、現状の進歩を聴衆に提供する。
まず,視覚刺激を適切に選択する方法に着目し,主観的品質評価手法を再考する。
手書きのエンジニアリングと(深い)学習ベースの手法の両方をカバーします。
論文 参考訳(メタデータ) (2021-10-19T02:38:46Z) - Identity-Aware CycleGAN for Face Photo-Sketch Synthesis and Recognition [61.87842307164351]
まず,画像生成ネットワークの監視に新たな知覚損失を適用したIACycleGAN(Identity-Aware CycleGAN)モデルを提案する。
眼や鼻などの重要な顔領域の合成により多くの注意を払うことで、フォトエッチング合成におけるサイクガンを改善する。
IACycleGANによる画像の合成を反復的に行う合成モデルと認識モデルとの相互最適化手法を開発した。
論文 参考訳(メタデータ) (2021-03-30T01:30:08Z) - Adversarial Text-to-Image Synthesis: A Review [7.593633267653624]
我々は,5年前に始まった対人テキスト・画像合成モデルの状況,その発展を文脈的に把握し,その監督レベルに基づく分類法を提案する。
我々は,より優れたデータセットや評価指標の開発から,アーキテクチャ設計やモデルトレーニングの改善の可能性に至るまで,テキスト・ツー・イメージ合成モデルの評価,欠点の強調,新たな研究領域の特定に向けた現在の戦略を批判的に検討する。
本総説は, テキストと画像の合成に焦点をあてた, 生成的敵ネットワークに関する過去の調査を補完するものである。
論文 参考訳(メタデータ) (2021-01-25T09:58:36Z) - NPRportrait 1.0: A Three-Level Benchmark for Non-Photorealistic
Rendering of Portraits [67.58044348082944]
本稿では,スタイリングされたポートレート画像の評価のための,新しい3レベルベンチマークデータセットを提案する。
厳密な基準が構築に使われ、その一貫性はユーザスタディによって検証された。
ポートレート・スタイル化アルゴリズムを評価するための新しい手法が開発されている。
論文 参考訳(メタデータ) (2020-09-01T18:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。