Fugu-MT 論文翻訳(概要): Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

論文の概要: Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark

arxiv url: http://arxiv.org/abs/2503.10357v1
Date: Thu, 13 Mar 2025 13:37:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-14 21:36:22.6906
Title: Do I look like a `cat.n.01` to you? A Taxonomy Image Generation Benchmark
Title（参考訳）: cat.n.01`のように見えますか? 分類学画像生成ベンチマーク
Authors: Viktor Moskvoretskii, Alina Lobanova, Ekaterina Neminova, Chris Biemann, Alexander Panchenko, Irina Nikishina,
Abstract要約: 本稿では、ゼロショット設定でテキスト・ツー・イメージ・モデルを用いて分類概念の画像を生成する可能性について検討する。分類概念を理解し、関連する高品質の画像を生成するモデルの能力を評価するベンチマークが提案されている。 9つの新しい分類関連テキスト・ツー・イメージ・メトリクスと人間のフィードバックを用いて12のモデルを評価した。
参考スコア（独自算出の注目度）: 63.97125827026949
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper explores the feasibility of using text-to-image models in a zero-shot setup to generate images for taxonomy concepts. While text-based methods for taxonomy enrichment are well-established, the potential of the visual dimension remains unexplored. To address this, we propose a comprehensive benchmark for Taxonomy Image Generation that assesses models' abilities to understand taxonomy concepts and generate relevant, high-quality images. The benchmark includes common-sense and randomly sampled WordNet concepts, alongside the LLM generated predictions. The 12 models are evaluated using 9 novel taxonomy-related text-to-image metrics and human feedback. Moreover, we pioneer the use of pairwise evaluation with GPT-4 feedback for image generation. Experimental results show that the ranking of models differs significantly from standard T2I tasks. Playground-v2 and FLUX consistently outperform across metrics and subsets and the retrieval-based approach performs poorly. These findings highlight the potential for automating the curation of structured data resources.
Abstract（参考訳）: 本稿では、ゼロショット設定でテキスト・ツー・イメージ・モデルを用いて分類概念の画像を生成する可能性について検討する。分類の豊かさに関するテキストベースの手法は確立されているが、視覚的次元の可能性は未解明のままである。そこで本研究では,分類概念を理解し,関連性の高い高品質な画像を生成するモデルの性能を評価する,分類画像生成のための総合ベンチマークを提案する。このベンチマークには、LLMが生成した予測とともに、常識的でランダムにサンプル化されたWordNetの概念が含まれている。 9つの新しい分類関連テキスト・ツー・イメージ・メトリクスと人間のフィードバックを用いて12のモデルを評価した。さらに,画像生成のためのGPT-4フィードバックを用いたペアワイズ評価の先駆的手法を提案する。実験結果から,モデルのランク付けは標準のT2Iタスクと大きく異なることがわかった。 Playground-v2 と FLUX は、メトリクスとサブセットで一貫してパフォーマンスが向上し、検索ベースのアプローチは、パフォーマンスが良くない。これらの知見は構造化データリソースのキュレーションを自動化する可能性を浮き彫りにした。

関連論文リスト

Taxonomy-Aware Evaluation of Vision-Language Models [48.285819827561625]
本稿では,視覚言語モデルから生成されたような制約のないテキスト予測を分類学に対して評価するためのフレームワークを提案する。具体的には,分類学における予測の正しさと特異性を評価するために,階層的精度とリコール対策を用いることを提案する。
論文参考訳（メタデータ） (2025-04-07T19:46:59Z)
EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-24T04:08:25Z)
Diversified in-domain synthesis with efficient fine-tuning for few-shot classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文参考訳（メタデータ） (2023-12-05T17:18:09Z)
XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation [19.399688660643367]
XIMAGENET-12は、200K以上の画像と15,410のマニュアルセマンティックアノテーションで構成されている。本研究では、ロバスト性評価のための定量的基準を開発し、様々な条件下での視覚モデルの性能の微妙な理解を可能にする。
論文参考訳（メタデータ） (2023-10-12T10:17:40Z)
Towards Visual Taxonomy Expansion [50.462998483087915]
本稿では,分類拡張タスクに視覚的特徴を導入し,VTE(Visual Taxonomy Expansion)を提案する。テキストと視覚のセマンティクスをクラスタリングするためのテキストハイパーネミー学習タスクとビジュアルプロトタイプ学習タスクを提案する。提案手法を2つのデータセットで評価し,有意な結果を得た。
論文参考訳（メタデータ） (2023-09-12T10:17:28Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)
Bringing motion taxonomies to continuous domains via GPLVM on hyperbolic manifolds [8.385386712928785]
人間の動きは、人間の動きと環境との相互作用の仕方を分類する高レベルの階層的抽象化として機能する。本稿では,関連する階層構造を捉えるハイパーボリック埋め込みを用いて分類データをモデル化することを提案する。本モデルでは,既存の分類群や新分類群の未確認データを適切にエンコードし,EuclideanおよびVAEベースの分類群よりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-04T15:19:24Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)
Can Taxonomy Help? Improving Semantic Question Matching using Question Taxonomy [37.57300969050908]
セマンティックな質問マッチングのためのハイブリッド手法を提案する。深層学習に基づく質問から得られた質問クラスで最先端のディープラーニングモデルを強化することにより、提案された2層分類を英語の質問に使用します。
論文参考訳（メタデータ） (2021-01-20T16:23:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。