論文の概要: Directional Textual Inversion for Personalized Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2512.13672v1
- Date: Mon, 15 Dec 2025 18:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.824075
- Title: Directional Textual Inversion for Personalized Text-to-Image Generation
- Title(参考訳): パーソナライズされたテキスト・ツー・イメージ生成のための方向テキストインバージョン
- Authors: Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim,
- Abstract要約: テキスト・インバージョン(TI)は、テキスト・ツー・イメージのパーソナライズに効果的なアプローチであるが、複雑なプロンプトで失敗することが多い。
本稿では,DTI(Directional Textual Inversion)を提案する。
その結果,方向のみの最適化は,迅速なパーソナライゼーションのための堅牢でスケーラブルな経路であることが示唆された。
- 参考スコア(独自算出の注目度): 25.33436737792218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual Inversion (TI) is an efficient approach to text-to-image personalization but often fails on complex prompts. We trace these failures to embedding norm inflation: learned tokens drift to out-of-distribution magnitudes, degrading prompt conditioning in pre-norm Transformers. Empirically, we show semantics are primarily encoded by direction in CLIP token space, while inflated norms harm contextualization; theoretically, we analyze how large magnitudes attenuate positional information and hinder residual updates in pre-norm blocks. We propose Directional Textual Inversion (DTI), which fixes the embedding magnitude to an in-distribution scale and optimizes only direction on the unit hypersphere via Riemannian SGD. We cast direction learning as MAP with a von Mises-Fisher prior, yielding a constant-direction prior gradient that is simple and efficient to incorporate. Across personalization tasks, DTI improves text fidelity over TI and TI-variants while maintaining subject similarity. Crucially, DTI's hyperspherical parameterization enables smooth, semantically coherent interpolation between learned concepts (slerp), a capability that is absent in standard TI. Our findings suggest that direction-only optimization is a robust and scalable path for prompt-faithful personalization.
- Abstract(参考訳): テキスト・インバージョン(TI)は、テキスト・ツー・イメージのパーソナライズに効果的なアプローチであるが、複雑なプロンプトで失敗することが多い。
学習トークンは分配範囲外まで漂流し、プリノーム変圧器の急激な条件付けを低下させる。
理論的には、大小が位置情報を減衰させ、プレノームブロックの残余更新を妨げているかを分析する。
本稿では,DTI (Directional Textual Inversion) を提案する。これは,埋め込みサイズを分布内スケールに修正し,リーマン SGD による単位超球面上の方向のみを最適化する。
我々は、von Mises-Fisher を用いた MAP として方向学習を行った。
パーソナライズタスク全体にわたって、DTIは、主題の類似性を維持しながら、TIとTIの変種よりもテキストの忠実性を改善する。
重要なことに、DTIの超球面パラメータ化は、標準TIにはない学習概念(slerp)間のスムーズで意味的にコヒーレントな補間を可能にする。
その結果,方向のみの最適化は,迅速なパーソナライゼーションのための堅牢でスケーラブルな経路であることが示唆された。
関連論文リスト
- A high-capacity linguistic steganography based on entropy-driven rank-token mapping [81.29800498695899]
言語ステガノグラフィーは、秘密のメッセージを無害なテキストに埋め込むことによって、秘密のコミュニケーションを可能にする。
従来の修正ベースの手法は検出可能な異常を導入し、検索ベースの戦略は埋め込み能力の低下に悩まされている。
本稿では、ランクベース適応符号化と文脈認識の圧縮を正規化エントロピーと統合したRTMStegaというエントロピー駆動のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T06:02:47Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Rebalancing Contrastive Alignment with Bottlenecked Semantic Increments in Text-Video Retrieval [48.85977777168096]
Gap-Aware Retrievalフレームワークは、テキスト$t_i$とビデオ$v_j$の間で、学習可能なペア固有のインクリメント$Delta_ij$を導入している。
セマンティックギャップに条件付けされた軽量なニューラルモジュールは、構造認識の修正のためにバッチ間で増分する。
4つのベンチマークの実験は、GAREが一貫してアライメント精度とロバスト性を改善することを示した。
論文 参考訳(メタデータ) (2025-05-18T17:18:06Z) - Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。
既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。
本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-22T07:03:57Z) - Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment [0.0]
Retrieval-Augmented Generation (RAG) システムは、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する。
本稿では,これらのギャップを効率的に埋める汎用投影法を提案する。
私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
論文 参考訳(メタデータ) (2024-10-30T20:28:10Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Entropy Transformer Networks: A Learning Approach via Tangent Bundle
Data Manifold [8.893886200299228]
本稿では,CNNアーキテクチャの設計における画像変換の高精度かつ高速なアプローチについて述べる。
データ多様体分布を補間する新しいエントロピーSTN(ESTN)を提案する。
挑戦的なベンチマークの実験は、提案されたESTNがコンピュータビジョンタスクの範囲で予測精度を向上させることを示している。
論文 参考訳(メタデータ) (2023-07-24T04:21:51Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Regularizing Deep Networks with Semantic Data Augmentation [44.53483945155832]
従来の手法を補完する新しい意味データ拡張アルゴリズムを提案する。
提案手法はディープネットワークが線形化特徴の学習に有効であるという興味深い性質に着想を得たものである。
提案した暗黙的セマンティックデータ拡張(ISDA)アルゴリズムは,新たなロバストCE損失を最小限に抑える。
論文 参考訳(メタデータ) (2020-07-21T00:32:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。