論文の概要: Polaris: Scaling Up Instruction-Guided Image Generation Towards Millions of Personalized Style Needs
- arxiv url: http://arxiv.org/abs/2606.01858v1
- Date: Mon, 01 Jun 2026 08:10:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.598688
- Title: Polaris: Scaling Up Instruction-Guided Image Generation Towards Millions of Personalized Style Needs
- Title(参考訳): Polaris:パーソナライズされたスタイルのニーズに向け、インストラクションをガイドした画像生成のスケールアップ
- Authors: Zhi-Kai Chen, Jun-Peng Jiang, Jun-Jie Tao, De-Chuan Zhan, Han-Jia Ye,
- Abstract要約: ユーザーは、画像生成モデルが非常に多様でパーソナライズされた要求に迅速に適応することを期待している。
従来のアプローチは微調整に依存しており、コストがかかり、スケールが難しい。
ユーザの指示に基づいてモデルライブラリから適切なモデルを自動的に選択・統合するインテリジェント検索フレームワークであるPolarisを提案する。
- 参考スコア(独自算出の注目度): 81.09433199235131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Users increasingly expect image generation models to quickly adapt to highly diverse and personalized requirements, such as producing images with distinctive styles or characteristics. Traditional approaches rely on fine-tuning, which is costly and difficult to scale. To cope with these limitations, the community has accumulated a growing library of fine-tuned modules and adapters, where each component targets specific generation needs and collectively serves as a foundation for handling new demands. This naturally raises a question: instead of repeatedly training new models, can we systematically exploit this expanding ecosystem to better fulfill user instructions? To this end, we present Polaris, an intelligent retrieval framework that automatically selects and integrates suitable models from the model library based on a user's instructions. The key insight is that harnessing such a massive and heterogeneous pool requires not only finding the most relevant modules among thousands of candidates, but also aligning them effectively for instruction-driven generation and editing. Polaris addresses this challenge by indexing over 6,500 checkpoints and 75,000 adapters, and retrieving the most relevant components given a user's input and instruction. In doing so, it delivers scalable, controllable, and well-aligned generation -- without any additional training.
- Abstract(参考訳): ユーザには、画像生成モデルが非常に多様でパーソナライズされた要求に迅速に適応することを期待している。
従来のアプローチは微調整に依存しており、コストがかかり、スケールが難しい。
これらの制限に対処するため、コミュニティは細調整されたモジュールとアダプタのライブラリを蓄積し、各コンポーネントが特定の生成ニーズをターゲットにし、新しい要求を処理するための基盤として一括して機能する。
新しいモデルを何度もトレーニングする代わりに、この拡大するエコシステムを体系的に活用して、ユーザ指示をより適切に満たせるか?
そこで本研究では,ユーザの指示に基づいてモデルライブラリから適切なモデルを自動的に選択し,統合するインテリジェント検索フレームワークであるPolarisを提案する。
鍵となる洞察は、そのような巨大で不均一なプールを利用するには、何千もの候補の中で最も関連性の高いモジュールを見つけるだけでなく、命令駆動の生成と編集のためにそれらを効果的に調整する必要があることである。
Polarisはこの課題に対処するため、6500以上のチェックポイントと75,000のアダプタをインデックス化し、ユーザの入力と命令によって最も関連性の高いコンポーネントを検索する。
そうすることで、拡張性、制御性、整合性のある生成を、追加のトレーニングなしで実現できます。
関連論文リスト
- LoRAverse: A Submodular Framework to Retrieve Diverse Adapters for Diffusion Models [10.732709225098342]
低ランク適応(LoRA)モデルは、事前訓練された拡散モデルのパーソナライズに革命をもたらした。
Civit.aiのようなプラットフォームで100万以上のLoRAアダプタが利用可能であるにもかかわらず、ユーザはナビゲート、セレクション、そして最も適したアダプタを効果的に活用するという課題に直面している。
論文 参考訳(メタデータ) (2025-10-16T17:59:45Z) - Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation [81.92275347127833]
統一モデルを開発する上で重要な課題は、画像理解に必要な視覚的特徴と生成の相違にある。
本稿では,この課題に対処する自動回帰型マルチモーダル基盤モデルであるPiscesを紹介する。
微妙なデータキュレーション、事前学習、微調整と組み合わせることで、ピッセは画像理解と画像生成の両方において競合する性能を達成する。
論文 参考訳(メタデータ) (2025-06-12T06:37:34Z) - SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。
SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。
実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文 参考訳(メタデータ) (2024-11-28T08:07:32Z) - Personalized Image Generation with Large Multimodal Models [47.289887243367055]
そこで我々はPersonalized Image Generation Framework(PSH)を提案し,ユーザの視覚的嗜好やニーズをノイズの多いユーザ履歴やマルチモーダルな指示から捉える。
パーソナライズされたステッカーとポスター生成にPigeonを応用し,様々な生成ベースラインよりも定量的な結果と人的評価が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-18T04:20:46Z) - Fast Adaptation with Bradley-Terry Preference Models in Text-To-Image
Classification and Generation [0.0]
我々はBradley-Terry選好モデルを利用して、元のモデルを効率的に微調整する高速適応法を開発した。
このフレームワークの能力の広範な証拠は、マルチモーダルテキストや画像理解に関連するさまざまな領域の実験を通じて提供される。
論文 参考訳(メタデータ) (2023-07-15T07:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。