論文の概要: InstructMoLE: Instruction-Guided Mixture of Low-rank Experts for Multi-Conditional Image Generation
- arxiv url: http://arxiv.org/abs/2512.21788v1
- Date: Thu, 25 Dec 2025 21:37:12 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:30.231908
- Title: InstructMoLE: Instruction-Guided Mixture of Low-rank Experts for Multi-Conditional Image Generation
- Title(参考訳): InstructMole:マルチコンディショナル画像生成のための低ランクエキスパートの指導誘導混合
- Authors: Jinqi Xiao, Qing Yan, Liming Jiang, Zichuan Liu, Hao Kang, Shen Sang, Tiancheng Zhi, Jing Liu, Cheng Yang, Xin Lu, Bo Yuan,
- Abstract要約: InstructMoLEは、低ランクエキスパートのインストラクションガイドミクチャーを取り入れた、新しいフレームワークである。
本研究は、生成モデルの命令駆動微調整のための頑健で一般化可能なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.210150562465202
- License:
- Abstract: Parameter-Efficient Fine-Tuning of Diffusion Transformers (DiTs) for diverse, multi-conditional tasks often suffers from task interference when using monolithic adapters like LoRA. The Mixture of Low-rank Experts (MoLE) architecture offers a modular solution, but its potential is usually limited by routing policies that operate at a token level. Such local routing can conflict with the global nature of user instructions, leading to artifacts like spatial fragmentation and semantic drift in complex image generation tasks. To address these limitations, we introduce InstructMoLE, a novel framework that employs an Instruction-Guided Mixture of Low-Rank Experts. Instead of per-token routing, InstructMoLE utilizes a global routing signal, Instruction-Guided Routing (IGR), derived from the user's comprehensive instruction. This ensures that a single, coherently chosen expert council is applied uniformly across all input tokens, preserving the global semantics and structural integrity of the generation process. To complement this, we introduce an output-space orthogonality loss, which promotes expert functional diversity and mitigates representational collapse. Extensive experiments demonstrate that InstructMoLE significantly outperforms existing LoRA adapters and MoLE variants across challenging multi-conditional generation benchmarks. Our work presents a robust and generalizable framework for instruction-driven fine-tuning of generative models, enabling superior compositional control and fidelity to user intent.
- Abstract(参考訳): 多条件タスクのためのパラメータ効率の良い拡散変換器(DiT)の微調整は、LoRAのようなモノリシックアダプタを使用する場合、しばしばタスク干渉に悩まされる。
Mixture of Low-rank Experts (MoLE)アーキテクチャはモジュラーソリューションを提供するが、そのポテンシャルは通常トークンレベルで動作するルーティングポリシーによって制限される。
このようなローカルルーティングは、ユーザ命令のグローバルな性質と矛盾し、複雑な画像生成タスクにおける空間的断片化やセマンティックドリフトといったアーティファクトにつながる可能性がある。
これらの制約に対処するため、我々は、低ランクエキスパートの指導誘導混合を用いた新しいフレームワークであるInstructMoLEを紹介した。
命令ごとのルーティングの代わりに、InstructMoLEは、ユーザの包括的な命令から派生したグローバルルーティング信号であるInstruction-Guided Routing (IGR)を使用する。
これにより、単一の、一貫性のある専門家協議会が全ての入力トークンに一様に適用され、生成プロセスのグローバルな意味と構造的整合性を維持する。
これを補うために出力空間の直交損失を導入し、専門的な機能的多様性を促進し、表現的崩壊を緩和する。
大規模な実験により、InstructMoLEは既存のLoRAアダプタとMoLEの派生を、挑戦的なマルチ条件生成ベンチマークで大幅に上回っていることが示されている。
本研究は,命令駆動による生成モデルの微調整のための頑健で一般化可能なフレームワークを提案し,ユーザ意図に対する優れた構成制御と忠実性を実現する。
関連論文リスト
- GMoPE:A Prompt-Expert Mixture Framework for Graph Foundation Models [30.023472202549076]
グラフニューラルネットワーク(GNN)はタスク固有のベンチマークで素晴らしいパフォーマンスを示しているが、さまざまなドメインやタスクをまたいで一般化する能力は限定的だ。
GMoPEは,Mixture-of-Experts(MoE)アーキテクチャをグラフの即時学習とシームレスに統合するフレームワークである。
GMoPEは、最先端のベースラインを一貫して上回り、完全なパラメータの微調整に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-11-05T07:28:51Z) - L-MoE: End-to-End Training of a Lightweight Mixture of Low-Rank Adaptation Experts [10.21556794551883]
L-MoE: LoRA エキスパートの軽量混合体について紹介する。
L-MoEは、MoEの専門家をタスク特化して低ランクのアダプタとして再定義する。
L-MoE の公式な数学的枠組みを提案する。
論文 参考訳(メタデータ) (2025-10-19T08:44:25Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Token-Level Prompt Mixture with Parameter-Free Routing for Federated Domain Generalization [51.562474873972086]
Federated Domain Generalization (FedDG)は、異種データを持つ分散クライアントからグローバルに一般化可能なモデルを学ぶことを目的としている。
近年の研究では、単一のグローバルなプロンプトを学習することで、FedDGの視覚言語モデル(VLM)を適応させる素早い学習が導入されている。
本稿では,FedDGのためのパラメータフリールーティングフレームワークであるTRIPを提案する。
論文 参考訳(メタデータ) (2025-04-29T11:06:03Z) - AT-MoE: Adaptive Task-planning Mixture of Experts via LoRA Approach [0.6906005491572401]
本稿では,Adaptive Task-planing Mixture of Experts(AT-MoE)アーキテクチャを紹介する。
まず、LoRAアプローチを用いてタスク固有の専門家を訓練し、専門分野における問題解決能力と解釈可能性を高める。
次に,複雑なタスク命令に基づくモジュール融合を最適化する階層適応型グループルーティングモジュールを提案する。
論文 参考訳(メタデータ) (2024-10-12T13:03:15Z) - Glider: Global and Local Instruction-Driven Expert Router [83.785832410832]
モデルMoErging」手法は、保持タスクのパフォーマンスを犠牲にして、未確認タスクへの一般化を優先する。
マルチスケールルーティング機構を統合したGLIDER(Global and Local Instruction Driven Expert Router)を提案する。
GLIDERは、ホールドアウトタスクの強い一般化を維持しながら、ホールドイン性能を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:14Z) - Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning [68.94230363140771]
クラスター条件のLoRAエキスパート(MoCLE)の混合
MoCLEは、命令クラスタに基づいてタスクカスタマイズされたモデルパラメータを活性化するために設計された、新しいMixture of Expertsアーキテクチャである。
InstructBLIPとLLaVAの実験はMoCLEの有効性を示した。
論文 参考訳(メタデータ) (2023-12-19T18:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。