論文の概要: Per-Query Visual Concept Learning
- arxiv url: http://arxiv.org/abs/2508.09045v1
- Date: Tue, 12 Aug 2025 16:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.494648
- Title: Per-Query Visual Concept Learning
- Title(参考訳): クエリごとの視覚概念学習
- Authors: Ori Malca, Dvir Samuel, Gal Chechik,
- Abstract要約: パーソナライゼーションのステップを追加することで,既存の手法の多くを大幅に拡張できることを示す。
具体的には、以前アイデンティティをキャプチャするために設計されたPDM機能を活用して、セマンティックな類似性を改善する方法を示しています。
- 参考スコア(独自算出の注目度): 32.045160884721646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual concept learning, also known as Text-to-image personalization, is the process of teaching new concepts to a pretrained model. This has numerous applications from product placement to entertainment and personalized design. Here we show that many existing methods can be substantially augmented by adding a personalization step that is (1) specific to the prompt and noise seed, and (2) using two loss terms based on the self- and cross- attention, capturing the identity of the personalized concept. Specifically, we leverage PDM features - previously designed to capture identity - and show how they can be used to improve personalized semantic similarity. We evaluate the benefit that our method gains on top of six different personalization methods, and several base text-to-image models (both UNet- and DiT-based). We find significant improvements even over previous per-query personalization methods.
- Abstract(参考訳): ビジュアル・コンセプト・ラーニング(英: Visual concept learning)またはテキスト・ツー・イメージ・パーソナライゼーション(英: Text-to-image Personalization)は、事前訓練されたモデルに新しい概念を教える過程である。
これは製品配置からエンターテイメント、パーソナライズドデザインに至るまで、数多くの応用がある。
ここでは,(1)プロンプトとノイズシードに特有なパーソナライズステップを付加し,(2)自己とクロスアテンションに基づく2つの損失項を用いて,パーソナライズされた概念のアイデンティティをキャプチャすることで,既存の多くの手法を実質的に拡張することができることを示す。
具体的には、以前アイデンティティをキャプチャするために設計されたPDM機能を活用して、パーソナライズされたセマンティックな類似性を改善する方法を示しています。
提案手法は、6つの異なるパーソナライズ手法と、UNetベースとDiTベースの両方のベーステキスト・ツー・イメージモデルで得られる利点を評価した。
従来のクエリごとのパーソナライズ手法よりも大きな改善が見られた。
関連論文リスト
- Improving Personalized Search with Regularized Low-Rank Parameter Updates [52.29168893900888]
視覚言語検索のための視覚言語二重エンコーダモデルの内部表現の適応方法を示す。
言語エンコーダの最終層における小さなパラメータ集合の正規化低ランク適応は、テキストインバージョンに対する高い効率の代替となる。
提案手法は,自然言語クエリを用いた個人化画像検索のための2つのベンチマークにおいて,最先端の精度を実現する。
論文 参考訳(メタデータ) (2025-06-11T21:15:21Z) - MagicFace: Training-free Universal-Style Human Image Customized Synthesis [13.944050414488911]
MagicFaceは、マルチコンセプトのユニバーサルなヒューマンイメージパーソナライズされた合成のためのトレーニング不要の方法である。
私たちの中核となる考え方は、人間が特定の概念を与えられた画像を作成する方法をシミュレートし、まずセマンティックなレイアウトを確立することです。
第1段階では、RSAは遅延画像がすべての参照概念から同時に特徴を問合せすることを可能にする。
論文 参考訳(メタデータ) (2024-08-14T10:08:46Z) - OSTAF: A One-Shot Tuning Method for Improved Attribute-Focused T2I Personalization [9.552325786494334]
個人化されたテキスト・ツー・イメージ(T2I)のパーソナライズのためのパラメータ効率の高いワンショット微調整手法を提案する。
様々な属性特徴の正確な学習を実現するために,ハイパネットワークによる属性中心の微調整機構が導入された。
提案手法は属性識別と適用において大きな優位性を示すとともに,効率と出力品質のバランスが良好であることを示す。
論文 参考訳(メタデータ) (2024-03-17T01:42:48Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image
Personalization [56.892032386104006]
CatVersionは、いくつかの例を通してパーソナライズされた概念を学ぶ、反転ベースの方法である。
ユーザはテキストプロンプトを使って、パーソナライズされたコンセプトを具現化した画像を生成することができる。
論文 参考訳(メタデータ) (2023-11-24T17:55:10Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。