論文の概要: Offline Evaluation of Set-Based Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2410.17331v1
- Date: Tue, 22 Oct 2024 18:04:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:55:08.233526
- Title: Offline Evaluation of Set-Based Text-to-Image Generation
- Title(参考訳): セットベーステキスト・画像生成のオフライン評価
- Authors: Negar Arabzadeh, Fernando Diaz, Junfeng He,
- Abstract要約: 理想はテキスト・トゥ・イメージ(TTI)タスクの重要なサブクラスである。
TTIの既存の評価基準は、依然として分布類似度指標に焦点が当てられている。
我々は、ユーザが空間的に配置された画像の集合を閲覧し、どのように相互作用するかという明示的なモデルを用いて、TTI評価メトリクスを開発する。
- 参考スコア(独自算出の注目度): 55.1766769455424
- License:
- Abstract: Text-to-Image (TTI) systems often support people during ideation, the early stages of a creative process when exposure to a broad set of relevant images can help explore the design space. Since ideation is an important subclass of TTI tasks, understanding how to quantitatively evaluate TTI systems according to how well they support ideation is crucial to promoting research and development for these users. However, existing evaluation metrics for TTI remain focused on distributional similarity metrics like Fr\'echet Inception Distance (FID). We take an alternative approach and, based on established methods from ranking evaluation, develop TTI evaluation metrics with explicit models of how users browse and interact with sets of spatially arranged generated images. Our proposed offline evaluation metrics for TTI not only capture how relevant generated images are with respect to the user's ideation need but also take into consideration the diversity and arrangement of the set of generated images. We analyze our proposed family of TTI metrics using human studies on image grids generated by three different TTI systems based on subsets of the widely used benchmarks such as MS-COCO captions and Localized Narratives as well as prompts used in naturalistic settings. Our results demonstrate that grounding metrics in how people use systems is an important and understudied area of benchmark design.
- Abstract(参考訳): テキスト・トゥ・イメージ(TTI)システムは、創造的なプロセスの初期段階において、広い範囲の関連画像に触れることによって、デザイン空間を探索するのに役立つ。
思考はTTIタスクの重要なサブクラスであるため,TTIシステムの定量的評価方法を理解することは,これらのユーザの研究開発を促進する上で重要である。
しかし、TTIの既存の評価基準は、Fr\echet Inception Distance (FID)のような分布類似性指標に焦点が当てられている。
評価評価から確立された手法に基づいて,ユーザが空間的に配置された画像の集合を閲覧・操作する方法を明示したモデルを用いて,TTI評価指標を開発する。
提案手法は,TTIのオフライン評価指標として,ユーザのイメージセットの多様性や配置を考慮に入れた上で,生成画像がユーザのアイデアに対してどの程度関連性があるかを抽出する。
我々は,MS-COCOキャプションや局所的ナラティブといった広く使用されているベンチマークのサブセットと,自然主義的な設定で使用されるプロンプトに基づいて,3つの異なるTTIシステムによって生成された画像グリッドに関する人間の研究を用いて,提案したTTIメトリクスのファミリーを解析した。
我々の結果は、人々がシステムをどのように利用するかについての基盤となるメトリクスが、ベンチマーク設計の重要かつ未検討の領域であることを示している。
関連論文リスト
- Beyond Mask: Rethinking Guidance Types in Few-shot Segmentation [67.35274834837064]
我々は、テキスト、マスク、ボックス、画像からのプロンプトを統合するユニバーサルビジョン言語フレームワーク(UniFSS)を開発した。
UniFSSは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-16T08:41:01Z) - Semantic Similarity Score for Measuring Visual Similarity at Semantic Level [5.867765921443141]
シーングラフ生成とグラフマッチングに基づくセマンティック類似度スコア(Semantic similarity Score)のセマンティック評価指標を提案する。
このメトリクスは、画像の意味レベル情報のセマンティックレベルの違いを測定することができ、視覚的意味コミュニケーションシステムにおける評価に使用できる。
論文 参考訳(メタデータ) (2024-06-06T08:51:26Z) - CrossScore: Towards Multi-View Image Evaluation and Scoring [24.853612457257697]
相互参照画像品質評価法は画像評価景観のギャップを埋める。
本手法は,地上の真理参照を必要とせず,精度の高い画像品質評価を可能にする。
論文 参考訳(メタデータ) (2024-04-22T17:59:36Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - Efficient Discovery and Effective Evaluation of Visual Perceptual
Similarity: A Benchmark and Beyond [20.035369732786407]
110K以上の専門家が注釈付けした画像ペアからなる,最初の大規模な視覚的類似度ベンチマークデータセットを紹介する。
本稿では,任意のデータセットに適用可能な,新規で効率的なラベル付け手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T17:59:47Z) - SETI: Systematicity Evaluation of Textual Inference [24.156140116509064]
本稿では,事前学習言語モデル(PLM)を評価するための新しい総合ベンチマークSETI(Systematicity Evaluation of Textual Inference)を提案する。
特に、SETIは3つの異なるNLIタスクとそれに対応するデータセットを提供し、推論プロセスにおける様々なタイプの体系性を評価する。
実験の結果,プリミティブを組み合わさった知識に遭遇したとき,多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種
論文 参考訳(メタデータ) (2023-05-24T11:35:31Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Remote Sensing Image Classification using Transfer Learning and
Attention Based Deep Neural Network [59.86658316440461]
本稿では、転送学習技術とマルチヘッドアテンションスキームを活用した、深層学習に基づくRSISCフレームワークを提案する。
提案したディープラーニングフレームワークは、ベンチマークNWPU-RESISC45データセットに基づいて評価され、最高の分類精度94.7%を達成する。
論文 参考訳(メタデータ) (2022-06-20T10:05:38Z) - NDPNet: A novel non-linear data projection network for few-shot
fine-grained image classification [33.71025164816078]
本稿では,非線形データ投影の概念を,メートル法に基づくきめ細かい画像分類アーキテクチャの設計に導入する。
提案したアーキテクチャは,任意のエピソードトレーニング機構にスクラッチからエンド・ツー・エンド・トレーニングに簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-06-13T13:33:09Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。