論文の概要: You Only Submit One Image to Find the Most Suitable Generative Model
- arxiv url: http://arxiv.org/abs/2412.12232v1
- Date: Mon, 16 Dec 2024 14:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:02:11.259923
- Title: You Only Submit One Image to Find the Most Suitable Generative Model
- Title(参考訳): 最も適切な生成モデルを見つけるために、1つの画像を送信するだけでよい
- Authors: Zhi Zhou, Lan-Zhe Guo, Peng-Xiao Song, Yu-Feng Li,
- Abstract要約: 我々は生成モデル同定(GMI)と呼ばれる新しい設定を提案する。
GMIは、ユーザの要求に対して最も適切な生成モデルを効率的に特定できるようにすることを目的としている。
- 参考スコア(独自算出の注目度): 48.67303250592189
- License:
- Abstract: Deep generative models have achieved promising results in image generation, and various generative model hubs, e.g., Hugging Face and Civitai, have been developed that enable model developers to upload models and users to download models. However, these model hubs lack advanced model management and identification mechanisms, resulting in users only searching for models through text matching, download sorting, etc., making it difficult to efficiently find the model that best meets user requirements. In this paper, we propose a novel setting called Generative Model Identification (GMI), which aims to enable the user to identify the most appropriate generative model(s) for the user's requirements from a large number of candidate models efficiently. To our best knowledge, it has not been studied yet. In this paper, we introduce a comprehensive solution consisting of three pivotal modules: a weighted Reduced Kernel Mean Embedding (RKME) framework for capturing the generated image distribution and the relationship between images and prompts, a pre-trained vision-language model aimed at addressing dimensionality challenges, and an image interrogator designed to tackle cross-modality issues. Extensive empirical results demonstrate the proposal is both efficient and effective. For example, users only need to submit a single example image to describe their requirements, and the model platform can achieve an average top-4 identification accuracy of more than 80%.
- Abstract(参考訳): 深層生成モデルは画像生成において有望な成果を上げており、Hugging FaceやCivitaiといった様々な生成モデルハブが開発されており、モデル開発者がモデルやユーザがモデルをダウンロードできるようにしている。
しかし、これらのモデルハブには高度なモデル管理と識別機構が欠如しており、ユーザーはテキストマッチングやダウンロードソートなどを通じてモデルのみを検索できるため、ユーザ要求に最も適したモデルを見つけることは困難である。
本稿では,多数の候補モデルからユーザの要求に対して最適な生成モデルを特定することを目的とした,GMI(Generative Model Identification)という新しい設定を提案する。
私たちの知る限りでは、まだ研究されていない。
本稿では、生成画像の分布と画像とプロンプトの関係を捉えるための重み付きカーネル平均埋め込み(RKME)フレームワークと、次元問題に対処するための事前学習されたビジョン言語モデルと、相互モダリティ問題に対処するイメージインタクタとからなる総合的なソリューションを提案する。
大規模な実証実験の結果、この提案は効率的かつ効果的であることが示された。
例えば、ユーザーは要求を説明するために単一のサンプルイメージを提出するだけで、モデルプラットフォームは80%以上の平均的なトップ4識別精度を達成できる。
関連論文リスト
- Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Which Model Generated This Image? A Model-Agnostic Approach for Origin Attribution [23.974575820244944]
本研究では,生成した画像の起点属性を現実的に検討する。
ゴールは、ある画像がソースモデルによって生成されるかどうかを確認することである。
OCC-CLIPはCLIPをベースとしたワンクラス分類のためのフレームワークである。
論文 参考訳(メタデータ) (2024-04-03T12:54:16Z) - Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image
Classification and Generation [0.0]
我々はBradley-Terry選好モデルを利用して、元のモデルを効率的に微調整する高速適応法を開発した。
このフレームワークの能力の広範な証拠は、マルチモーダルテキストや画像理解に関連するさまざまな領域の実験を通じて提供される。
論文 参考訳(メタデータ) (2023-07-15T07:53:12Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Content-Based Search for Deep Generative Models [45.322081206025544]
クエリと生成モデルの大規模なセットを与えられた場合、クエリに最もよくマッチするモデルを見つける。
各生成モデルは画像の分布を生成するため、探索タスクを最適化問題として定式化し、クエリと類似したコンテンツを生成する確率が最も高いモデルを選択する。
提案手法は,モデル検索タスクのための新しいベンチマークである生成モデル動物園において,いくつかのベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:59:51Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Comprehensive and Efficient Data Labeling via Adaptive Model Scheduling [25.525371500391568]
画像検索プラットフォームやフォトアルバム管理アプリのような特定のアプリケーションでは、十分なラベルを得るためにモデルのコレクションを実行する必要があることが多い。
本研究では,1) モデル間の意味関係をマイニングすることで,非自明なモデルの価値を予測するための強化学習に基づく手法と,2) モデル実行順序を期限付きあるいは期限依存の制約下で適応的にスケジューリングする2つのアルゴリズムからなる適応型モデルスケジューリングフレームワークを提案する。
私たちの設計では、貴重なラベルを失うことなく、約53%の実行時間を節約できます。
論文 参考訳(メタデータ) (2020-02-08T03:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。