論文の概要: Personalized Image Generation via Human-in-the-loop Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2602.02388v2
- Date: Wed, 04 Feb 2026 18:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 15:07:33.714628
- Title: Personalized Image Generation via Human-in-the-loop Bayesian Optimization
- Title(参考訳): ループ内ベイズ最適化によるパーソナライズされた画像生成
- Authors: Rajalaxmi Rajagopalan, Debottam Dutta, Yu-Lin Wei, Romit Roy Choudhury,
- Abstract要約: 言語が限界に達した後も、新しい画像が$xast$よりも$xp*$に近いタイミングで認識できることが示されています。
我々は,新しい画像を生成するMultiBOを$xp*$の関数として開発し,ユーザから優先的なフィードバックを得る。
ユーザからのフィードバックのラウンドで、生成モデルは$xast$に関する情報を持っていないにも関わらず、$xast$にずっと近づくことが可能であることを示す。
- 参考スコア(独自算出の注目度): 12.244879883193512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imagine Alice has a specific image $x^\ast$ in her mind, say, the view of the street in which she grew up during her childhood. To generate that exact image, she guides a generative model with multiple rounds of prompting and arrives at an image $x^{p*}$. Although $x^{p*}$ is reasonably close to $x^\ast$, Alice finds it difficult to close that gap using language prompts. This paper aims to narrow this gap by observing that even after language has reached its limits, humans can still tell when a new image $x^+$ is closer to $x^\ast$ than $x^{p*}$. Leveraging this observation, we develop MultiBO (Multi-Choice Preferential Bayesian Optimization) that carefully generates $K$ new images as a function of $x^{p*}$, gets preferential feedback from the user, uses the feedback to guide the diffusion model, and ultimately generates a new set of $K$ images. We show that within $B$ rounds of user feedback, it is possible to arrive much closer to $x^\ast$, even though the generative model has no information about $x^\ast$. Qualitative scores from $30$ users, combined with quantitative metrics compared across $5$ baselines, show promising results, suggesting that multi-choice feedback from humans can be effectively harnessed for personalized image generation.
- Abstract(参考訳): 例えば、アリスが子供の頃に育った通りの景色を想像してみよう。
その正確な画像を生成するために、彼女は複数ラウンドのプロンプトで生成モデルをガイドし、イメージ$x^{p*}$に到達する。
x^{p*}$は$x^\ast$に十分近いが、Alice氏は言語プロンプトを使ってそのギャップを埋めることは難しいと考えている。
本論文は,言語が限界に達した後も,新しい画像が$x^+$よりも$x^\ast$に近づいた時,人間がそれを知ることができることを観察することによって,このギャップを狭めることを目的としている。
そこで我々は,MultiBO(Multi-Choice Preferential Bayesian Optimization)を開発し,x^{p*}$の関数として$K$の画像を注意深く生成し,ユーザの優先的なフィードバックを得て,そのフィードバックを用いて拡散モデルを導出し,最終的に$K$の画像を新たに生成する。
生成モデルは$x^\ast$に関する情報を持っていないにもかかわらず、ユーザからのフィードバックのラウンドで、$x^\ast$にずっと近づくことが可能であることを示す。
30ドルのユーザからの質的スコアと5ドルのベースラインで比較した定量的指標を組み合わせると、有望な結果が示され、人からの複数選択フィードバックが、パーソナライズされた画像生成に効果的に活用できることが示唆されている。
関連論文リスト
- A Black-Box Debiasing Framework for Conditional Sampling [18.132736654624058]
条件付きサンプリングはベイズ統計学および生成モデルにおける基本的な課題である。
本稿では,このようなナイーブなプラグインアプローチの精度を向上させるブラックボックスデバイアス方式を提案する。
論文 参考訳(メタデータ) (2025-10-13T07:11:27Z) - Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - Sample and Map from a Single Convex Potential: Generation using Conjugate Moment Measures [22.7776491836979]
モデルフィッティングを2つのブロックに分割する標準的なアプローチ: まず最初にノイズ(例えばガウス)をサンプリングする方法を定義し、次にそれで何をするかを選択する(例えば、1つの地図や地図を使う)。
例えば、$nabla w*sharp e-w$ は凸ポテンシャル $w$ の凸共役であり、$w*$ は凸ポテンシャル $w$ の凸共役である。
論文 参考訳(メタデータ) (2025-03-13T17:28:44Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Monge, Bregman and Occam: Interpretable Optimal Transport in
High-Dimensions with Feature-Sparse Maps [37.45959537338404]
我々は、$tau$ のスパース性誘導ノルムを選択すると、Occam のカミソリを輸送に応用する写像が得られることを示した。
本稿では,高次元単細胞転写データに対して有意なマップを推定する手法について紹介する。
論文 参考訳(メタデータ) (2023-02-08T14:02:34Z) - Approximate Function Evaluation via Multi-Armed Bandits [51.146684847667125]
既知の滑らかな関数 $f$ の値を未知の点 $boldsymbolmu in mathbbRn$ で推定する問題について検討する。
我々は、各座標の重要性に応じてサンプルを学習するインスタンス適応アルゴリズムを設計し、少なくとも1-delta$の確率で$epsilon$の正確な推定値である$f(boldsymbolmu)$を返す。
論文 参考訳(メタデータ) (2022-03-18T18:50:52Z) - Near Perfect GAN Inversion [17.745342857726925]
写真のほぼ完全な再構築を実現するアルゴリズムを導出する。
このアプローチは、複製したい実画像と区別できない合成画像を生成するだけでなく、これらの画像は容易に編集可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T23:58:13Z) - Mediated Uncoupled Learning: Learning Functions without Direct
Input-output Correspondences [80.95776331769899]
ペア化されたデータがない場合、$X$から$Y$を予測するタスクを考えます。
単純なアプローチは、$S_X$で$U$から$U$を予測し、$S_Y$で$U$から$Y$を予測することである。
我々は$U$を予測しない新しい方法を提案するが、$f(X)$と$S_X$をトレーニングすることで$Y = f(X)$を直接学習し、$h(U)$を予測する。
論文 参考訳(メタデータ) (2021-07-16T22:13:29Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Maximizing Determinants under Matroid Constraints [69.25768526213689]
我々は、$det(sum_i in Sv_i v_i v_itop)$が最大になるような基底を$S$$$$M$とする問題を研究する。
この問題は、実験的なデザイン、商品の公平な割り当て、ネットワーク設計、機械学習など、さまざまな分野に現れている。
論文 参考訳(メタデータ) (2020-04-16T19:16:38Z) - Random Smoothing Might be Unable to Certify $\ell_\infty$ Robustness for
High-Dimensional Images [23.264535488112134]
乱数平滑化の難易度は, $ell_p$ の半径 $epsilon$ の攻撃に対して, $p>2$ のとき, 対逆ロバスト性が得られることを示す。
論文 参考訳(メタデータ) (2020-02-10T03:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。