論文の概要: PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction
- arxiv url: http://arxiv.org/abs/2406.04746v1
- Date: Fri, 7 Jun 2024 08:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:59:58.578902
- Title: PQPP: A Joint Benchmark for Text-to-Image Prompt and Query Performance Prediction
- Title(参考訳): PQPP: テキストと画像のプロンプトとクエリのパフォーマンス予測のためのベンチマーク
- Authors: Eduard Poesina, Adriana Valentina Costache, Adrian-Gabriel Chifu, Josiane Mothe, Radu Tudor Ionescu,
- Abstract要約: 10Kクエリからなる共同テキスト・画像プロンプトとクエリ性能予測のための最初のベンチマークを提案する。
本稿では, 先進・後進・後進・後進の予測器を用いて, 今後の研究の競争基盤となる性能予測器について述べる。
- 参考スコア(独自算出の注目度): 21.5792639312506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation has recently emerged as a viable alternative to text-to-image retrieval, due to the visually impressive results of generative diffusion models. Although query performance prediction is an active research topic in information retrieval, to the best of our knowledge, there is no prior study that analyzes the difficulty of queries (prompts) in text-to-image generation, based on human judgments. To this end, we introduce the first dataset of prompts which are manually annotated in terms of image generation performance. In order to determine the difficulty of the same prompts in image retrieval, we also collect manual annotations that represent retrieval performance. We thus propose the first benchmark for joint text-to-image prompt and query performance prediction, comprising 10K queries. Our benchmark enables: (i) the comparative assessment of the difficulty of prompts/queries in image generation and image retrieval, and (ii) the evaluation of prompt/query performance predictors addressing both generation and retrieval. We present results with several pre-generation/retrieval and post-generation/retrieval performance predictors, thus providing competitive baselines for future research. Our benchmark and code is publicly available under the CC BY 4.0 license at https://github.com/Eduard6421/PQPP.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションは, 生成拡散モデルの視覚的に印象的な結果により, テキスト・ツー・イメージ検索の代替として最近登場した。
問合せ性能予測は情報検索において活発な研究課題であるが,人間の判断に基づくテキスト・画像生成における問合せの難しさを解析する先行研究は存在しない。
そこで本稿では,画像生成性能の点から手動でアノテートしたプロンプトの最初のデータセットを紹介する。
画像検索における同じプロンプトの難しさを判定するために,検索性能を表す手動アノテーションも収集する。
そこで本研究では,10Kクエリからなる共同テキスト・イメージ・プロンプトとクエリ性能予測のための最初のベンチマークを提案する。
私たちのベンチマークは以下のとおり可能です。
一 画像生成及び画像検索におけるプロンプト/クエリの難易度の比較評価及び
(2)生成と検索の両方に対処するプロンプト/クエリ性能予測器の評価
本稿では, 先進・後進・後進・後進の予測器を用いて, 今後の研究の競争基盤となる性能予測器について述べる。
ベンチマークとコードはCC BY 4.0ライセンスでhttps://github.com/Eduard6421/PQPPで公開されている。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
brightbenchmarkは、さまざまなドメインから収集された1,398の現実世界のクエリから構築されている。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - Efficient Image-Text Retrieval via Keyword-Guided Pre-Screening [53.1711708318581]
現在の画像テキスト検索法は、N$関連時間複雑さに悩まされている。
本稿では,画像テキスト検索のための簡易かつ効果的なキーワード誘導事前スクリーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:36:42Z) - iQPP: A Benchmark for Image Query Performance Prediction [24.573869540845124]
画像クエリ性能予測(iQPP)のための最初のベンチマークを提案する。
2つの最先端画像検索モデルを用いて,各問合せの根本的難易度を平均精度または精度@kとして推定する。
次に,新しい検索前および検索後クエリ性能予測器を提案し,既存の(テキストから画像まで)予測器と比較した。
我々の総合的な実験は、iQPPは挑戦的なベンチマークであり、将来の作業で対処する必要がある重要な研究ギャップを明らかにしていることを示している。
論文 参考訳(メタデータ) (2023-02-20T17:56:57Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Where Does the Performance Improvement Come From? - A Reproducibility
Concern about Image-Text Retrieval [85.03655458677295]
画像テキスト検索は、情報検索分野において、徐々に主要な研究方向になりつつある。
まず、画像テキスト検索タスクに焦点が当てられている理由と関連性について検討する。
本研究では,事前学習と非事前学習による検索モデルの再現の諸側面を解析する。
論文 参考訳(メタデータ) (2022-03-08T05:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。