論文の概要: HyperTransport: Amortized Conditioning of T2I Generative Models
- arxiv url: http://arxiv.org/abs/2605.08254v1
- Date: Thu, 07 May 2026 19:38:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.504153
- Title: HyperTransport: Amortized Conditioning of T2I Generative Models
- Title(参考訳): HyperTransport: T2I生成モデルの記憶条件
- Authors: Valentino Maiorca, Eleonora Gualdoni, Xavier Suau, Marco Cuturi, Luca Zappella, Pau Rodríguez,
- Abstract要約: 本稿では,事前学習したエンコーダからの埋め込みを直接介入パラメータにマッピングすることで,コストを償却するハイパーネットワークフレームワークを提案する。
トレーニングが完了すると、HyperTransportは、概念ごとのフィッティングよりも3600-7000倍高速な単一のハイパーネットワークフォワードパスに、それぞれ新たな介入を生成する。
我々は,CLIPベースのメトリクス,VLM-as-a-judge評価,ユーザスタディを通じて,167のホールドアウトテスト概念を対象に,MDD2およびNitro-1-Art上のHyperTransportを検証する。
- 参考スコア(独自算出の注目度): 33.42596787236425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As foundation models grow in capability, the ability to efficiently and reliably control their behavior becomes critical. Fine-tuning these models can be costly, and while prompting can be practical for controllability, it remains fragile due to models' high sensitivity to exact prompt wording and structure. This brittleness has driven interest in activation steering techniques that offer more stable and predictable control over model behavior. However, existing activation steering methods require per-concept optimization, which makes them ill-suited to deployment scenarios where the concept set is large, evolving, or only specified at request time: each new concept incurs at least minutes of optimization on the target model. We propose HyperTransport, a hypernetwork framework that amortizes this cost by mapping embeddings from a pretrained encoder (CLIP in our instantiation) directly to intervention parameters, trained end-to-end using an optimal transport loss. Once trained, HyperTransport produces each new intervention in a single hypernetwork forward pass, 3600-7000x faster than per-concept fitting. On concepts unseen during training, it matches the strongest per-concept baselines at inducing the target concept. By decoupling concept representation from intervention prediction, HyperTransport combines three capabilities that no existing approach offers as a set: amortized steering for open-ended concept sets, continuous interpretable strength control, and cross-modal conditioning where reference images can directly steer text-based generation. We validate HyperTransport on DMD2 and Nitro-1-PixArt across 167 held-out test concepts via CLIP-based metrics, a VLM-as-a-judge evaluation, and a user study. In pairwise comparisons, both human and VLM judges prefer HyperTransport over prompting ~2x as often.
- Abstract(参考訳): 基礎モデルの性能が向上するにつれて、その振る舞いを効率的に確実に制御する能力が重要になる。
これらのモデルの微調整はコストがかかる可能性があり、プロンプトは制御可能であるが、モデルが正確なプロンプトワードや構造に対して高い感度を持つため、脆弱なままである。
この脆さは、モデルの振る舞いをより安定して予測可能な制御を提供するアクティベーションステアリング技術への関心を惹き付けている。
しかし、既存のアクティベーションステアリング手法では、コンセプトセットが大きく、進化し、要求時にのみ指定されるデプロイメントシナリオに適さない、概念ごとの最適化が必要である。
我々は,このコストを抑えるハイパーネットワークフレームワークであるHyperTransportを提案する。これは,事前訓練されたエンコーダ(CLIP)からの埋め込みを直接介入パラメータにマッピングし,最適なトランスポート損失を用いてエンドツーエンドにトレーニングする。
トレーニングが完了すると、HyperTransportは、概念ごとのフィッティングよりも3600-7000倍高速な単一のハイパーネットワークフォワードパスに、それぞれ新たな介入を生成する。
トレーニング中に目に見えない概念では、ターゲットコンセプトを誘導する上で最も強い概念単位のベースラインと一致します。
介入予測から概念表現を分離することにより、HyperTransportは、既存のアプローチが提供していない3つの機能を組み合わせる。
我々は,CLIPベースのメトリクス,VLM-as-a-judge評価,ユーザスタディを通じて,167のホールドアウトテスト概念を対象に,MDD2およびNitro-1-PixArt上のHyperTransportを検証する。
対比較では、人間とVLMの審査員はHyperTransportの方が2倍の頻度で推奨される。
関連論文リスト
- LaST-R1: Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning [90.86828952599147]
提案するLaST-R1(LaST-R1)は,「最近の推論・行動」政策を活用するために設計された,新しい強化学習フレームワークである。
LaST-R1 は LIBERO ベンチマークで 99.9% の平均成功率を達成した。
実世界の展開では、LaST-R1はSOTAが監督する微調整アプローチよりも22.5%平均的に改善されている。
論文 参考訳(メタデータ) (2026-04-30T17:59:52Z) - PCHC: Enabling Preference Conditioned Humanoid Control via Multi-Objective Reinforcement Learning [50.63196995993855]
多目的強化学習(MORL)を活用してPCHC(Preference-Conditioned Humanoid Control)を実現する新しいフレームワークを提案する。
当社のフレームワークは、単一の嗜好条件のポリシーを多種多様な行動を示すために有効である。
論文 参考訳(メタデータ) (2026-03-25T07:55:37Z) - UnHype: CLIP-Guided Hypernetworks for Dynamic LoRA Unlearning [3.8373805990749266]
UnHypeは、ハイパーネットワークをシングルコンセプトとマルチコンセプトのローランド適応(LoRA)トレーニングに組み込むフレームワークである。
推論中、ハイパーネットワークはCLIP埋め込みに基づいて適応的なLoRA重みを動的に生成する。
我々はUnHypeを、オブジェクト消去、有名人の消去、明示的なコンテンツ削除など、いくつかの困難なタスクで評価する。
論文 参考訳(メタデータ) (2026-02-03T11:37:08Z) - Next Interest Flow: A Generative Pre-training Paradigm for Recommender Systems by Modeling All-domain Movelines [8.895768051554162]
本稿では,eコマースレコメンデータシステムのための新しい生成事前学習パラダイムを提案する。
我々のモデルは,ユーザの将来の意図を表す密度の高いベクトル列であるNext Interest Flowを予測することを学ぶ。
パイプライン全体を実装した統合フレームワークである All-domain Moveline Evolution Network (AMEN) を提示する。
論文 参考訳(メタデータ) (2025-10-13T12:13:17Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Flow-Through Tensors: A Unified Computational Graph Architecture for Multi-Layer Transportation Network Optimization [20.685856719515026]
Flow Throughs (FTT) は、原点のフロー、経路、確率、およびリンク移動時間を相互接続テンソルとして接続する統一的な計算グラフアーキテクチャである。
まず、以前に分離されたモデリング要素間で勾配に基づく最適化を可能にする一貫した数学的構造を確立する。
第2に、システム効率の正確な定量化により、時間、空間、ユーザグループのトラフィックパターンの多次元解析をサポートする。
論文 参考訳(メタデータ) (2025-06-30T06:42:23Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Generalized Multi-Objective Reinforcement Learning with Envelope Updates in URLLC-enabled Vehicular Networks [12.323383132739195]
我々は,無線ネットワーク選択と自律運転ポリシーを協調的に最適化する,新しい多目的強化学習(MORL)フレームワークを開発した。
ベルマン方程式の一般化版を適用し、多目的Q値の凸包絡を最適化し、最適ポリシーを生成することができる統一パラメトリック表現を学習する。
数値計算により, エンベロープ型MORLソリューションの有効性を検証し, 車両動特性, HOs, 通信データ率の相互依存性に関する興味深い知見を示した。
論文 参考訳(メタデータ) (2024-05-18T16:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。