論文の概要: PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction
- arxiv url: http://arxiv.org/abs/2406.04746v2
- Date: Tue, 18 Mar 2025 16:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:13:53.166985
- Title: PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction
- Title(参考訳): PQPP: テキストと画像のプロンプトとクエリのパフォーマンス予測のためのベンチマーク
- Authors: Eduard Poesina, Adriana Valentina Costache, Adrian-Gabriel Chifu, Josiane Mothe, Radu Tudor Ionescu,
- Abstract要約: 本稿では,画像生成性能の点から手動でアノテートするプロンプトの最初のデータセットを紹介する。
我々はこれらの評価をテキスト・ツー・イメージ検索に拡張し、検索性能を表す手動アノテーションを収集する。
そこで我々は,PQPP (Properced and query performance prediction) とPQPP (Properced and query performance prediction) の2つのタスク間で10万以上のクエリからなる最初の共同ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 21.5792639312506
- License:
- Abstract: Text-to-image generation has recently emerged as a viable alternative to text-to-image retrieval, driven by the visually impressive results of generative diffusion models. Although query performance prediction is an active research topic in information retrieval, to the best of our knowledge, there is no prior study that analyzes the difficulty of queries (referred to as prompts) in text-to-image generation, based on human judgments. To this end, we introduce the first dataset of prompts which are manually annotated in terms of image generation performance. Additionally, we extend these evaluations to text-to-image retrieval by collecting manual annotations that represent retrieval performance. We thus establish the first joint benchmark for prompt and query performance prediction (PQPP) across both tasks, comprising over 10K queries. Our benchmark enables (i) the comparative assessment of prompt/query difficulty in both image generation and image retrieval, and (ii) the evaluation of prompt/query performance predictors addressing both generation and retrieval. We evaluate several pre- and post-generation/retrieval performance predictors, thus providing competitive baselines for future research. Our benchmark and code are publicly available at https://github.com/Eduard6421/PQPP.
- Abstract(参考訳): 近年, テキスト・ツー・イメージ生成は, 生成拡散モデルの視覚的に印象的な結果によって, テキスト・ツー・イメージ検索の代替となる可能性が浮上している。
問合せ性能予測は情報検索において活発な研究課題であるが, 人間の判断に基づいて, テキスト・画像生成における問合せの難しさを解析する先行研究は存在しない。
そこで本稿では,画像生成性能の点から手動でアノテートしたプロンプトの最初のデータセットを紹介する。
さらに、これらの評価をテキストから画像への検索に拡張し、検索性能を表す手動アノテーションを収集する。
そこで我々は,PQPP (Properced and query performance prediction) とPQPP (Properced and query performance prediction) の2つのタスク間で10万以上のクエリからなる最初の共同ベンチマークを構築した。
私たちのベンチマークは有効です
(i)画像生成と画像検索の双方におけるプロンプト/クエリの難しさの比較評価
(2)生成と検索の両方に対処するプロンプト/クエリ性能予測器の評価
我々は,先・後・後の性能予測器の評価を行い,今後の研究の競争基盤を提供する。
ベンチマークとコードはhttps://github.com/Eduard6421/PQPP.comで公開されています。
関連論文リスト
- Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - iQPP: A Benchmark for Image Query Performance Prediction [24.573869540845124]
画像クエリ性能予測(iQPP)のための最初のベンチマークを提案する。
2つの最先端画像検索モデルを用いて,各問合せの根本的難易度を平均精度または精度@kとして推定する。
次に,新しい検索前および検索後クエリ性能予測器を提案し,既存の(テキストから画像まで)予測器と比較した。
我々の総合的な実験は、iQPPは挑戦的なベンチマークであり、将来の作業で対処する必要がある重要な研究ギャップを明らかにしていることを示している。
論文 参考訳(メタデータ) (2023-02-20T17:56:57Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。