論文の概要: PersonalQ: Select, Quantize, and Serve Personalized Diffusion Models for Efficient Inference
- arxiv url: http://arxiv.org/abs/2603.22943v1
- Date: Tue, 24 Mar 2026 08:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.383868
- Title: PersonalQ: Select, Quantize, and Serve Personalized Diffusion Models for Efficient Inference
- Title(参考訳): PersonalQ:効率的な推論のためのパーソナライズされた拡散モデルの選択、定量化、およびサーブ
- Authors: Qirui Wang, Qi Guo, Yiding Sun, Junkai Yang, Dongxu Zhang, Shanmin Pang, Qing Guo,
- Abstract要約: PersonalQは、チェックポイントのトリガートークンである共有信号を通じて、チェックポイントの選択と量子化を接続する。
Check-inは、意図認識型ハイブリッド検索とLLMベースのチェックポイントコンテキスト上のランク付けを組み合わせることで、意図整合の選択を行う。
Trigger-Aware Quantization (TAQ) は、トリガー・アウェアの混合精度をクロスアテンションに適用する。
- 参考スコア(独自算出の注目度): 20.472591326805553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized text-to-image generation lets users fine-tune diffusion models into repositories of concept-specific checkpoints, but serving these repositories efficiently is difficult for two reasons: natural-language requests are often ambiguous and can be misrouted to visually similar checkpoints, and standard post-training quantization can distort the fragile representations that encode personalized concepts. We present PersonalQ, a unified framework that connects checkpoint selection and quantization through a shared signal -- the checkpoint's trigger token. Check-in performs intent-aligned selection by combining intent-aware hybrid retrieval with LLM-based reranking over checkpoint context and asks a brief clarification question only when multiple intents remain plausible; it then rewrites the prompt by inserting the selected checkpoint's canonical trigger. Complementing this, Trigger-Aware Quantization (TAQ) applies trigger-aware mixed precision in cross-attention, preserving trigger-conditioned key/value rows (and their attention weights) while aggressively quantizing the remaining pathways for memory-efficient inference. Experiments show that PersonalQ improves intent alignment over retrieval and reranking baselines, while TAQ consistently offers a stronger compression-quality trade-off than prior diffusion PTQ methods, enabling scalable serving of personalized checkpoints without sacrificing fidelity.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成により、ユーザは、概念固有のチェックポイントのリポジトリに微調整の拡散モデルを適用することができるが、これらのリポジトリを効率的に提供することは、2つの理由から難しい。
私たちは、チェックポイントの選択と量子化を共有信号で接続する統合フレームワークであるPersonalQ(チェックポイントのトリガートークン)を紹介します。
チェックインは、インテントを意識したハイブリッド検索とLLMベースのリグレードを併用して、複数のインテントが検証可能な場合にのみ、簡単な明確化の質問を行い、選択したチェックポイントの標準トリガを挿入することでプロンプトを書き換える。
トリガー・アウェア量子化(TAQ)は、トリガー条件付きキー/値列(およびそれらの注意重み)を保ちながら、メモリ効率の高い推論のために残りの経路を積極的に定量化する。
実験により、PersonalQは検索よりも意図的アライメントを改善し、ベースラインをリランクする一方、TAQは従来の拡散PTQ法よりも圧縮品質の高いトレードオフを一貫して提供し、不確実性を犠牲にすることなくパーソナライズされたチェックポイントのスケーラブルな提供を可能にした。
関連論文リスト
- Decomposing Reasoning Efficiency in Large Language Models [2.4149105714758545]
我々はトークン効率を、固定されたトークン予算の下での完了、与えられた完了条件の正確性、冗長性といった、解釈可能な要因に分解する。
推論トレースが利用可能であれば、冗長だが拡張された推論からループを分離するために決定論的トレース品質尺度を追加します。
我々の分解は、異なる効率の介入を示唆する異なるボトルネックプロファイルを明らかにします。
論文 参考訳(メタデータ) (2026-02-10T14:09:18Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs [16.357595595062946]
植民地の後に空間をトークン化する方法には合意がないが、しばしば自明な選択として見過ごされる。
驚いたことに、私たちは1つの特定の戦略 -- 回答のレターとともにスペースをトークン化する -- を推奨できます。
本研究は、注意深い評価設計の重要性を強調し、標準化された透明な評価プロトコルの必要性を強調した。
論文 参考訳(メタデータ) (2025-09-18T14:47:58Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Conditional Logical Message Passing Transformer for Complex Query Answering [22.485655410582375]
我々は、新しい最先端のニューラルCQAモデル、条件付き論理メッセージパッシングトランス(CLMPT)を提案する。
我々は,本手法が性能に影響を与えずに計算コストを削減できることを実証的に検証した。
実験の結果, CLMPTは最先端のニューラルCQAモデルであることがわかった。
論文 参考訳(メタデータ) (2024-02-20T12:17:01Z) - Reliability-Adaptive Consistency Regularization for Weakly-Supervised
Point Cloud Segmentation [80.07161039753043]
極端に限られたラベルを持つ弱教師付きポイントクラウドセグメンテーションは、高額な注釈付き3Dポイントの収集コストを軽減するのが望ましい。
本稿では、弱教師付き学習において一般的に用いられる一貫性の正則化を、複数のデータ固有の拡張を伴うポイントクラウドに適用することを検討する。
疑似ラベルの信頼性を評価するために,予測信頼性とモデル不確実性を両立させる新しい信頼性適応整合ネットワーク(RAC-Net)を提案する。
論文 参考訳(メタデータ) (2023-03-09T10:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。