論文の概要: Ortho-Hydra: Orthogonalized Experts for DiT LoRA
- arxiv url: http://arxiv.org/abs/2605.03252v1
- Date: Tue, 05 May 2026 00:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.698077
- Title: Ortho-Hydra: Orthogonalized Experts for DiT LoRA
- Title(参考訳): Ortho-Hydra: DiT LoRAのOrthogonalized Experts
- Authors: Seunghyun Ji,
- Abstract要約: マルチスタイルデータ上での拡散変圧器(DiT)のローラ微調整
BftextOrthoHydra は、OFT-スタイルのCayley-orthogonal共有基底と、事前訓練されたウェイトのトップ-$(Er)$左特異ベクトルから彫刻された経験的エンフィジジョイント出力部分空間を組み合わせた再分類である。
予測デッドロックをDiTパイプライン上で2つのHydraLoRAベースライン,ゼロハウンド共有バス変種とオリジナルを比較して検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LoRA fine-tuning of diffusion transformers (DiT) on multi-style data suffers from \emph{style bleed}: a single low-rank residual cannot represent several distinct artist fingerprints, and the optimizer converges to their average. Mixture-of-experts LoRA in the HydraLoRA style replaces the up-projection with $E$ heads under a router, but when every expert is zero-initialized the router receives identical gradient from each head and remains at the uniform prior. The experts then evolve permutation-symmetrically, and the network trains as a single rank-$r$ LoRA at $E{\times}$ the cost. We present \textbf{Ortho-Hydra}, a re-parameterisation that combines an OFT-style Cayley-orthogonal shared basis with per-expert \emph{disjoint output subspaces} carved from the top-$(Er)$ left singular vectors of the pretrained weight. Disjointness makes the router's per-expert score non-degenerate at step~$0$, so specialization receives gradient signal before any expert has trained. We test the predicted deadlock on a DiT pipeline by comparing two HydraLoRA baselines, a zero-initialized shared-basis variant and the original $σ{=}0.1$ Gaussian-jitter mitigation, against Ortho-Hydra under a matched optimiser, dataset, and step budget. Neither baseline leaves the uniform prior within the first $1\text{k}$ steps; Ortho-Hydra begins de-uniformising within the first few hundred. End-task generation quality on multi-style data is out of scope; we report the construction, the cold-start mechanism, and the routing dynamics it changes. Code: https://github.com/sorryhyun/anima_lora.
- Abstract(参考訳): マルチスタイルデータ上での拡散変換器(DiT)のLoRA微調整は、単一の低ランク残差が複数の異なるアーティストの指紋を表現できず、オプティマイザは平均に収束する。
HydraLoRAスタイルのMixture-of-experts LoRAは、アッププロジェクションをルータの下で$E$ヘッドに置き換えるが、エキスパートがゼロ初期化されると、ルータは各ヘッドから同一の勾配を受け取り、前と同じ状態に留まる。
専門家は順列対称に進化し、ネットワークは1ランク$r$LoRAとして$E{\times}$コストで訓練する。
ここでは、OFT-スタイルのケイリー-直交共有基底と、事前訓練されたウェイトのトップ-$(Er)$左特異ベクトルから、専門家ごとのemph{disjoint output subspaces}を組み合わせた再パラメータ化である「textbf{Ortho-Hydra}」を提案する。
Disjointnessはルータ毎のスコアをステップ~0$で非退化させるので、専門化は専門家が訓練する前に勾配信号を受信する。
We test the expected deadlock on a DiT pipeline by using two HydraLoRA baselines, a zero-initialized shared-basis variant and the original $σ{=}0.1$ Gaussian-jitter mitigation, against Ortho-Hydra under a Matched optimiser, dataset, and step budget。
どちらのベースラインも最初の1\text{k}$ステップに前もってユニフォームを残さず、Ortho-Hydraは最初の数百で非一様化を開始する。
マルチスタイルデータにおけるエンドタスク生成の品質はスコープ外であり、構成、コールドスタート機構、そしてそれが変化するルーティングダイナミクスを報告します。
コード:https://github.com/sorryhyun/anima_lora.com
関連論文リスト
- Rethinking the Rank Threshold for LoRA Fine-Tuning [4.221888521641282]
ニューラルタンジェントカーネル機構におけるLoRAファインチューニングの最近のランドスケープ解析では、二乗誤差損失下での急激な局所最小値の欠如に対して、LoRAランクの$r(r+1)/2 > KN$が十分条件$r(r+1)/2 となる。
この状態において、所定のランクを$r = 1$に下げる3つの結果を与える。
論文 参考訳(メタデータ) (2026-05-05T13:09:46Z) - Dimensional Criticality at Grokking Across MLPs and Transformers [2.652953665748039]
異なる力学系間の急激な遷移は、複雑なシステムの目印である。
オフライン雪崩探査機 textbfTDU-OFC (Thresholded Diffusion Update--Olami-Feder-Christensen) を紹介する。
モジュラー加算と XOR で訓練された一般化を訓練したトランスフォーマーは、拡散ベースラインの局所的交差をD=1$で発見する。
論文 参考訳(メタデータ) (2026-04-06T13:43:20Z) - Training Transformers in Cosine Coefficient Space [0.0]
キャラクターレベルのシェイクスピアのスクラッチから訓練されたトランスフォーマーは、検証損失が1.604$で$K = mn/2$に達した。
同じトレーニング可能なパラメータ数でのランク48のLoRA分解は、わずか1.801$である。
ランダムな正規直交基底はノイズ中のDCTを$K = mn/2$で一致させ、$K = mn/10$と$K = mn/20$で圧縮すると、高階行列をホストできる部分空間が損失を低く保つことを示す。
論文 参考訳(メタデータ) (2026-04-06T05:39:31Z) - Singular Bayesian Neural Networks [1.2891210250935148]
ベイズニューラルネットワークはキャリブレーションされた不確かさを約束するが、標準平均体ガウス後方に対する$O(mn)$パラメータを必要とする。
我々は、ルベーグ測度に関して特異な後部を誘導し、ランク-$r$多様体に集中する。
複素項が $sqrtr(m+n)$ ではなく $sqrtm n$ としてスケールするPAC-Bayes 一般化境界を導出し、誤差を最適化とランク誘導バイアスに分解する損失境界を証明する。
論文 参考訳(メタデータ) (2026-01-30T23:06:34Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit
Feedback and Unknown Transition [71.33787410075577]
線形関数近似,未知遷移,および逆損失を用いた強化学習について検討した。
我々は高い確率で$widetildeO(dsqrtHS3K + sqrtHSAK)$ regretを実現する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。