Fugu-MT 論文翻訳(概要): The Infinite Index: Information Retrieval on Generative Text-To-Image Models

論文の概要: The Infinite Index: Information Retrieval on Generative Text-To-Image Models

arxiv url: http://arxiv.org/abs/2212.07476v1
Date: Wed, 14 Dec 2022 19:50:35 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 16:16:48.330924
Title: The Infinite Index: Information Retrieval on Generative Text-To-Image Models
Title（参考訳）: 無限指数:生成テキスト・画像モデルにおける情報検索
Authors: Niklas Deckers, Maik Fr\"obe, Johannes Kiesel, Gianluca Pandolfo, Christopher Schr\"oder, Benno Stein, Martin Potthast
Abstract要約: 対話型画像検索として画像プロンプトエンジニアリングを「無限指数」で再放送するこれは、サーバ側がステートレスであるのに対して、イニシアチブがユーザ側にある、一方的なインタラクティブ検索の形式です。また、生成モデルと対話型生成画像検索に特化した検索モデルに関する今後の研究機会についても論じる。
参考スコア（独自算出の注目度）: 24.349087181599465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The text-to-image model Stable Diffusion has recently become very popular. Only weeks after its open source release, millions are experimenting with image generation. This is due to its ease of use, since all it takes is a brief description of the desired image to "prompt" the generative model. Rarely do the images generated for a new prompt immediately meet the user's expectations. Usually, an iterative refinement of the prompt ("prompt engineering") is necessary for satisfying images. As a new perspective, we recast image prompt engineering as interactive image retrieval - on an "infinite index". Thereby, a prompt corresponds to a query and prompt engineering to query refinement. Selected image-prompt pairs allow direct relevance feedback, as the model can modify an image for the refined prompt. This is a form of one-sided interactive retrieval, where the initiative is on the user side, whereas the server side remains stateless. In light of an extensive literature review, we develop these parallels in detail and apply the findings to a case study of a creative search task on such a model. We note that the uncertainty in searching an infinite index is virtually never-ending. We also discuss future research opportunities related to retrieval models specialized for generative models and interactive generative image retrieval. The application of IR technology, such as query reformulation and relevance feedback, will contribute to improved workflows when using generative models, while the notion of an infinite index raises new challenges in IR research.
Abstract（参考訳）: テキストと画像のモデルであるStable Diffusionは、最近非常に人気がある。オープンソースリリースからわずか数週間で、数百万人が画像生成を試している。これは、生成モデルを"プロンプト"するために所望の画像を簡単に記述するだけで済むため、使いやすさのためである。ユーザの期待に応える新しいプロンプトのために生成されたイメージを、まれに実行します。通常、画像を満たすためにはプロンプトの反復的な洗練(「プロンプトエンジニアリング」)が必要である。新たな視点として,画像プロンプトエンジニアリングをインタラクティブな画像検索として "infinite index" 上で再キャストする。これにより、プロンプトはクエリに対応し、エンジニアリングにクエリリファインメントを発行する。選択されたイメージプロンプトペアは、モデルが洗練されたプロンプトのために画像を修正できるため、直接的な関連性フィードバックを可能にする。これは、サーバ側がステートレスであるのに対して、イニシアチブがユーザ側にある、一方的なインタラクティブ検索の形式です。広範な文献レビューを踏まえて,これらの並列性を詳細に開発し,そのようなモデルを用いた創造的な探索作業の事例研究に適用する。無限指数を探索する不確実性は、事実上終わらないことに留意する。また,生成モデルと対話型生成画像検索に特化した検索モデルに関する今後の研究機会について述べる。クエリ再構成や関連フィードバックなどのIR技術の応用は、生成モデルを使用する際のワークフローの改善に寄与するが、無限インデックスの概念はIR研究において新たな課題を提起する。

関連論文リスト

GenIR: Generative Visual Feedback for Mental Image Retrieval [6.813922846074993]
心的イメージ検索(MIR)の課題について検討する。 MIRは、ユーザーがイメージ検索エンジンとのマルチラウンドインタラクションを通じて、精神的に想定されたイメージの検索を洗練する現実的で過度に探索された環境をターゲットにしている。本稿では,拡散に基づく画像生成を活用し,各ラウンドにおけるAIシステムの理解を明確化するための生成多ラウンド検索パラダイムであるGenIRを提案する。
論文参考訳（メタデータ） (2025-06-06T16:28:03Z)
Batch-Instructed Gradient for Prompt Evolution:Systematic Prompt Optimization for Enhanced Text-to-Image Synthesis [3.783530340696776]
本研究では,テキスト・画像生成モデルの入力プロンプトを最適化するマルチエージェントフレームワークを提案する。プロのプロンプトデータベースは、命令修飾子を高精細なプロンプトを生成するためのベンチマークとして機能する。予備的アブレーション研究は、様々なシステムコンポーネントの有効性を強調し、今後の改善の分野を提案する。
論文参考訳（メタデータ） (2024-06-13T00:33:29Z)
Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文参考訳（メタデータ） (2024-06-09T15:00:28Z)
Prompt Expansion for Adaptive Text-to-Image Generation [51.67811570987088]
本稿では,より少ない労力で高品質で多様な画像を生成するためのPrompt Expansionフレームワークを提案する。 Prompt Expansionモデルはテキストクエリを入力として取り、拡張されたテキストプロンプトのセットを出力する。本研究では,Prompt Expansionにより生成された画像が,ベースライン法により生成された画像よりも美的かつ多様であることを示す人体評価研究を行う。
論文参考訳（メタデータ） (2023-12-27T21:12:21Z)
Invisible Relevance Bias: Text-Image Retrieval Models Prefer AI-Generated Images [67.18010640829682]
我々は,AI生成画像がテキスト画像検索モデルに目に見えない関連性バイアスをもたらすことを示す。検索モデルのトレーニングデータにAI生成画像を含めると、目に見えない関連性バイアスが増す。本研究では,目に見えない関連バイアスを軽減するための効果的なトレーニング手法を提案する。
論文参考訳（メタデータ） (2023-11-23T16:22:58Z)
BeautifulPrompt: Towards Automatic Prompt Engineering for Text-to-Image Synthesis [14.852061933308276]
極めて単純な生記述から高品質なプロンプトを生成するための深層生成モデルである BeautifulPrompt を提案する。私たちの研究では、まず、高品質で高品質な収集プロンプトペアよりも美しいプロンプトモデルを微調整しました。さらに、より優れたテキスト・ツー・イメージ生成サービスを提供するために、クラウドネイティブなAIプラットフォームへのBeautifulPromptの統合についても紹介します。
論文参考訳（メタデータ） (2023-11-12T06:39:00Z)
Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文参考訳（メタデータ） (2023-08-02T23:39:29Z)
ReVersion: Diffusion-Based Relation Inversion from Images [45.119800963218616]
本稿では,既存の画像から特定の関係を学習することを目的としたリレーショナル・インバージョン・タスクを提案する。我々は、凍結した事前学習されたテキスト-画像拡散モデルを用いて関係プロンプトを学習する。学習した関係プロンプトを適用して、新しいオブジェクト、バックグラウンド、スタイルで関係固有の画像を生成する。
論文参考訳（メタデータ） (2023-03-23T17:56:10Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR) 我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文参考訳（メタデータ） (2022-04-24T08:10:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。