論文の概要: Data-Driven Loss Functions for Inference-Time Optimization in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2509.02295v1
- Date: Tue, 02 Sep 2025 13:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.038225
- Title: Data-Driven Loss Functions for Inference-Time Optimization in Text-to-Image Generation
- Title(参考訳): テキスト・画像生成における推論時間最適化のためのデータ駆動損失関数
- Authors: Sapir Esther Yiflach, Yuval Atzmon, Gal Chechik,
- Abstract要約: テキストから画像への拡散モデルはしばしば、子どもが自明な仕事を見つけるときに失敗する。
我々は、手作りではなく、テスト時間最適化のためのデータ駆動の目的を学習する新しいフレームワークであるLearning-to-Steerを紹介した。
FLUX.1-devでは0.20から0.61、標準ベンチマークでは0.07から0.54まで、空間精度が劇的に向上する。
- 参考スコア(独自算出の注目度): 36.29736220125951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models can generate stunning visuals, yet they often fail at tasks children find trivial--like placing a dog to the right of a teddy bear rather than to the left. When combinations get more unusual--a giraffe above an airplane--these failures become even more pronounced. Existing methods attempt to fix these spatial reasoning failures through model fine-tuning or test-time optimization with handcrafted losses that are suboptimal. Rather than imposing our assumptions about spatial encoding, we propose learning these objectives directly from the model's internal representations. We introduce Learn-to-Steer, a novel framework that learns data-driven objectives for test-time optimization rather than handcrafting them. Our key insight is to train a lightweight classifier that decodes spatial relationships from the diffusion model's cross-attention maps, then deploy this classifier as a learned loss function during inference. Training such classifiers poses a surprising challenge: they can take shortcuts by detecting linguistic traces rather than learning true spatial patterns. We solve this with a dual-inversion strategy that enforces geometric understanding. Our method dramatically improves spatial accuracy: from 0.20 to 0.61 on FLUX.1-dev and from 0.07 to 0.54 on SD2.1 across standard benchmarks. Moreover, our approach generalizes to multiple relations and significantly improves accuracy.
- Abstract(参考訳): テキストと画像の拡散モデルは、素晴らしい視覚を生成できるが、子どもが簡単に見出すようなタスクで失敗することが多い。これは、テディベアの右に犬を置くようなものだ。
既存の手法は、最適でない手作りの損失を伴うモデル微調整やテスト時間最適化によって、これらの空間的推論の失敗を修正しようとするものである。
空間符号化に関する仮定を示唆する代わりに、モデルの内部表現から直接これらの目的を学習することを提案する。
我々は、手作りではなく、テスト時間最適化のためのデータ駆動の目標を学習する新しいフレームワークであるLearning-to-Steerを紹介した。
我々の重要な洞察は、拡散モデルのクロスアテンションマップから空間関係をデコードする軽量な分類器を訓練し、この分類器を推論中に学習損失関数として展開することである。
このような分類器の訓練は驚くべき課題であり、真の空間パターンを学習するのではなく、言語的痕跡を検出することでショートカットを行うことができる。
我々は、幾何学的理解を強制する二重反転戦略でこれを解決した。
FLUX.1-devでは0.20から0.61、標準ベンチマークでは0.07から0.54まで、空間精度が劇的に向上する。
さらに,本手法は複数の関係を一般化し,精度を大幅に向上させる。
関連論文リスト
- Federated Deconfounding and Debiasing Learning for Out-of-Distribution Generalization [25.181305392387802]
連合学習(FL)における属性バイアスは、典型的には非因果関係の学習により、非矛盾的に局所モデルを最適化する。
本稿では,Underated UnderlineDeconfounding and UnderlineDebiasing UnderlineLearning (FedDDL)法を提案する。
構造化された因果グラフを構築してモデル推論プロセスを分析し、バックドア調整を行い、相反する経路を除去する。
論文 参考訳(メタデータ) (2025-05-08T06:32:59Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - SMaRt: Improving GANs with Score Matching Regularity [94.81046452865583]
生成的敵ネットワーク(GAN)は通常、基礎となる多様体が複雑である非常に多様なデータから学ぶのに苦労する。
スコアマッチングは、生成したデータポイントを実データ多様体へ持続的にプッシュする能力のおかげで、この問題に対する有望な解決策であることを示す。
スコアマッチング規則性(SMaRt)を用いたGANの最適化を提案する。
論文 参考訳(メタデータ) (2023-11-30T03:05:14Z) - Diffusion Model for Dense Matching [34.13580888014]
ペア画像間の密接な対応を確立する目的は、データ項と先行項の2つの項からなる。
我々はDiffMatchを提案する。DiffMatchは、データと事前条件の両方を明示的にモデル化する新しい条件付き拡散ベースのフレームワークである。
実験の結果,既存の手法に比べて,提案手法の大幅な性能向上が示された。
論文 参考訳(メタデータ) (2023-05-30T14:58:24Z) - Inference from Real-World Sparse Measurements [21.194357028394226]
実世界の問題は、しばしば複雑で非構造的な測定セットが伴うが、これはセンサーが空間または時間に狭く配置されているときに起こる。
セットからセットまで様々な位置で測定セットを処理し、どこででも読み出しを抽出できるディープラーニングアーキテクチャは、方法論的に困難である。
本稿では,適用性と実用的堅牢性に着目したアテンションベースモデルを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:42:20Z) - Regressive Domain Adaptation for Unsupervised Keypoint Detection [67.2950306888855]
ドメイン適応(DA)は、ラベル付きソースドメインからラベル付きターゲットドメインに知識を転送することを目的とする。
本稿では,教師なしキーポイント検出のためのレグレッシブドメイン適応(RegDA)法を提案する。
提案手法は,異なるデータセット上のPCKにおいて,8%から11%の大幅な改善をもたらす。
論文 参考訳(メタデータ) (2021-03-10T16:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。