論文の概要: Selecting Fine-Tuning Examples by Quizzing VLMs
- arxiv url: http://arxiv.org/abs/2511.12002v1
- Date: Sat, 15 Nov 2025 02:48:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.497298
- Title: Selecting Fine-Tuning Examples by Quizzing VLMs
- Title(参考訳): VLMによる微調整例の選択
- Authors: Tenghao Ji, Eytan Adar,
- Abstract要約: 低ランク適応(LoRA)のための画像選択フレームワークQZLoRAを提案する。
我々はQZLoRAがより整列したフォトリアリスティックな画像をより少ないサンプルで生成できることを実証した。
この結果から,自動視覚推論とパラメータ効率の微調整を併用したトピック適応生成モデルの実現が期待できる。
- 参考スコア(独自算出の注目度): 9.432068833600882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A challenge in fine-tuning text-to-image diffusion models for specific topics is to select good examples. Fine-tuning from image sets of varying quality, such as Wikipedia Commons, will often produce poor output. However, training images that \textit{do} exemplify the target concept (e.g., a \textit{female Mountain Bluebird}) help ensure that the generated images are similarly representative (e.g., have the prototypical blue-wings and gray chest). In this work, we propose QZLoRA, a framework to select images for low-rank adaptation (LoRA). The approach leverages QuizRank, a method to automatically rank images by treating them as an `educational intervention' and `quizzing' a VLM. We demonstrate that QZLoRA can produce better aligned, photorealistic images with fewer samples. We also show that these fine-tuned models can produce stylized that are similarly representative (i.e., illustrations). Our results highlight the promise of combining automated visual reasoning with parameter-efficient fine-tuning for topic-adaptive generative modeling.
- Abstract(参考訳): 特定のトピックに対するテキストと画像の拡散モデルを微調整する際の課題は、良い例を選択することである。
ウィキペディア・コモンズのような様々な品質の画像集合からの微調整は、しばしば出力が劣る。
しかし、ターゲット概念(例えば、a \textit{female Mountain Bluebird})を例示するトレーニングイメージは、生成したイメージが同様に代表的であることを保証する(例えば、原型的な青い翼と灰色の胸を持つ)。
本稿では,ローランク適応(LoRA)のための画像選択フレームワークであるQZLoRAを提案する。
このアプローチでは、イメージを自動的にランク付けするQuizRankを活用している。
我々はQZLoRAがより整列したフォトリアリスティックな画像をより少ないサンプルで生成できることを実証した。
また、これらの微調整されたモデルが、同様に代表的であるスタイリング(イラスト)を生成可能であることも示している。
この結果から,自動視覚推論とパラメータ効率の微調整を併用したトピック適応生成モデルの実現が期待できる。
関連論文リスト
- Compositional Image Synthesis with Inference-Time Scaling [12.210350828913759]
レイアウトの忠実性を改善するために、オブジェクト中心のアプローチと自己制限を組み合わせたトレーニング不要のフレームワークを提案する。
近年のテキスト・ツー・イメージ・モデルと比較して,レイアウト・グラウンドを自己修正型推論時間スケーリングと統合することにより,シーンアライメントの強化を実現している。
論文 参考訳(メタデータ) (2025-10-28T07:16:21Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - Regeneration Based Training-free Attribution of Fake Images Generated by Text-to-Image Generative Models [41.996769550318206]
そこで本研究では,テキスト・ツー・イメージ・モデルによって生成された偽画像をソース・モデルに属性付けするためのトレーニング不要な手法を提案する。
テスト画像と候補画像の類似性を計算し、ランキングすることにより、画像のソースを決定することができる。
論文 参考訳(メタデータ) (2024-03-03T11:55:49Z) - Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models [67.68871360210208]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。
提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - Uncovering the Disentanglement Capability in Text-to-Image Diffusion
Models [60.63556257324894]
画像生成モデルの重要な特性は、異なる属性をアンタングルする能力である。
本稿では,2つのテキスト埋め込みの混合重みをスタイルマッチングとコンテンツ保存に最適化した,シンプルで軽量な画像編集アルゴリズムを提案する。
実験により,提案手法は拡散モデルに基づく画像編集アルゴリズムよりも優れた性能で,幅広い属性を修正可能であることが示された。
論文 参考訳(メタデータ) (2022-12-16T19:58:52Z) - GLIDE: Towards Photorealistic Image Generation and Editing with
Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。
後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。
我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文 参考訳(メタデータ) (2021-12-20T18:42:55Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。