論文の概要: Spanning the Visual Analogy Space with a Weight Basis of LoRAs
- arxiv url: http://arxiv.org/abs/2602.15727v1
- Date: Tue, 17 Feb 2026 17:02:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.134657
- Title: Spanning the Visual Analogy Space with a Weight Basis of LoRAs
- Title(参考訳): LoRAの重みによるビジュアルアナロジー空間のスパンニング
- Authors: Hila Manor, Rinon Gal, Haggai Maron, Tomer Michaeli, Gal Chechik,
- Abstract要約: 視覚的アナロジー学習は、テキスト記述ではなく、デモによる画像操作を可能にする。
LoRWeBは、学習された変換プリミティブの動的合成を通じて、推論時のアナログタスク毎にモデルを専門化する。
本稿では,(1)LoRAモジュールの学習可能な基礎,2)異なる視覚変換の空間にまたがる学習可能な基礎,(2)LoRAを動的に選択・重み付けする軽量エンコーダについて紹介する。
- 参考スコア(独自算出の注目度): 84.16188433935494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet $\{\mathbf{a}$, $\mathbf{a}'$, $\mathbf{b}\}$, the goal is to generate $\mathbf{b}'$ such that $\mathbf{a} : \mathbf{a}' :: \mathbf{b} : \mathbf{b}'$. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb
- Abstract(参考訳): 視覚的アナロジー学習は、テキスト記述ではなく、デモによる画像操作を可能にし、ユーザーは単語の明瞭化が難しい複雑な変換を指定できる。
三重項 $\mathbf{a}'$, $\mathbf{a}'$, $\mathbf{b}\}$ が与えられたとき、目標は $\mathbf{a} : \mathbf{a}' :: \mathbf{b} : \mathbf{b}'$ となるような $\mathbf{b}'$ を生成することである。
最近の手法では、単一のローランド適応 (LoRA) モジュールを用いてテキスト・トゥ・イメージモデルをこのタスクに適用しているが、それらは基本的な制限に直面している。
制約付き領域におけるLoRAが意味のある意味空間にまたがることを示す最近の研究から着想を得たLoRWeBを提案する。LoRWeBは学習された変換プリミティブの動的合成を通して、推論時間における各アナログタスクのモデルを専門化する新しいアプローチで、「LoRAの空間」の中の点を選択する。
1) 異なる視覚変換の空間にまたがる学習可能なLoRAモジュールの基盤と,(2) 入力アナログペアに基づいてこれらの基盤を動的に選択および重み付けする軽量エンコーダである。
包括的評価は、我々のアプローチが最先端のパフォーマンスを実現し、目に見えない視覚変換への一般化を大幅に改善することを示す。
以上の結果から,ロラ基底分解はフレキシブルな視覚操作にとって有望な方向であることが示唆された。
コードとデータはhttps://research.nvidia.com/labs/par/lorwebにある
関連論文リスト
- DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Seg-VAR: Image Segmentation with Visual Autoregressive Modeling [60.79579744943664]
本稿では,セグメンテーションを条件付き自己回帰マスク生成問題として再考する新しい枠組みを提案する。
これは、差別的な学習を潜在的な学習プロセスに置き換えることによって達成される。
提案手法は,(1)入力画像から潜時前処理を生成する画像エンコーダ,(2)分割マスクを離散潜時トークンにマッピングする空間認識セグレット(セグメンテーションマスクの潜時表現)エンコーダ,(3)これらの潜時マスクを再構成するデコーダの3つのコアコンポーネントを含む。
論文 参考訳(メタデータ) (2025-11-16T13:36:19Z) - StelLA: Subspace Learning in Low-rank Adaptation using Stiefel Manifold [51.93627542334909]
低ランク適応(LoRA)は大規模事前訓練モデルのパラメータ効率向上手法として広く採用されている。
3要素分解$U!SVtop$を使用するLoRAの幾何学的拡張を提案する。
論文 参考訳(メタデータ) (2025-10-02T11:59:13Z) - Beyond Softmax: A Natural Parameterization for Categorical Random Variables [61.709831225296305]
階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。
実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
論文 参考訳(メタデータ) (2025-09-29T12:55:50Z) - RefineStyle: Dynamic Convolution Refinement for StyleGAN [15.230430037135017]
StyleGANでは、畳み込みカーネルは画像間で共有される静的パラメータの両方によって形成される。
$mathcalW+$スペースは画像の反転や編集によく使われる。
本稿では,動的カーネルの効率的な精錬戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T15:01:30Z) - Mixture-of-Subspaces in Low-Rank Adaptation [19.364393031148236]
計算効率が高く,実装が容易で,大規模言語,マルチモーダル,拡散モデルにも容易に適用可能なサブスペースインスパイアされたローランド適応法(LoRA)を提案する。
より柔軟にするために、元のLoRA重みとミキサーを併用して学習し、Mixture-of-Subspaces LoRAと呼ぶ。
MoSLoRAは、コモンセンス推論、ビジュアルインストラクションチューニング、主観駆動のテキスト・ツー・イメージ生成など、異なるモードのタスクでLoRAを一貫して上回っている。
論文 参考訳(メタデータ) (2024-06-16T14:19:49Z) - Vertical LoRA: Dense Expectation-Maximization Interpretation of Transformers [0.0]
本稿では,トランスフォーマーをベイズネット上での高密度期待最大化アルゴリズムとして解釈する方法を示す。
本稿では,性能を保ちながらパラメータ数を劇的に削減する新しいモデル設計パラダイム,すなわちVertical LoRAを提案する。
その結果,1) VLoRAではトランスフォーマーモデルパラメータカウントが劇的に減少し,2)元のモデルの性能が保たれることがわかった。
論文 参考訳(メタデータ) (2024-06-13T16:51:33Z) - Computational Limits of Low-Rank Adaptation (LoRA) Fine-Tuning for Transformer Models [10.827800772359844]
微粒化複雑性理論を用いた変圧器モデルにおけるローランド適応(LoRA)の計算限界について検討する。
我々のキーとなる観察は、LoRA適応の勾配計算における低ランク分解の存在がアルゴリズムの高速化につながることである。
論文 参考訳(メタデータ) (2024-06-05T10:44:08Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。