論文の概要: Beyond Inference-Only Deployment: Comparing Weight-Based Consolidation Against Cascading Compaction
- arxiv url: http://arxiv.org/abs/2605.24657v1
- Date: Sat, 23 May 2026 16:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.298094
- Title: Beyond Inference-Only Deployment: Comparing Weight-Based Consolidation Against Cascading Compaction
- Title(参考訳): 推論のみのデプロイメントを超えて - 軽量ベースの統合とカスケード圧縮の比較
- Authors: Simon Dennis, Kevin Shabahang, Hao Guo, Rivaan Patil,
- Abstract要約: 本研究は,1つのコンシューマ上でのLow-Rank Adaptation (LoRA)ファインチューニングにより,インタラクション知識をモデルウェイトに夜間に集約することを評価する。
10つの現実的なソフトウェア開発の会話の中で、カスケードのコンパクト化は36.8 +/-3.0%の知識を保持する。
LoRAは、相互作用知識を合成、合成、Low-Rank Adaptation (LoRA)ファインチューニングを通じてモデルウェイトに集約する。
- 参考スコア(独自算出の注目度): 1.6214121783846343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Major LLM platforms deploy models in an inference-only configuration: the model serves requests but never updates per-user weights. Users must repeatedly re-teach preferences, corrections, and project context, and context-based workarounds consume context-window space and degrade under cascading compaction. We evaluate an alternative: nightly consolidation of interaction knowledge into model weights via reflection, synthesis, and Low-Rank Adaptation (LoRA) fine-tuning on a single consumer GPU. Across ten realistic software development conversations (n = 10, 1,146 test questions across three memory types), three cycles of cascading compaction retain 36.8 +/- 3.0% of knowledge (between an 11.8% no-context floor and a 90.1% full-context ceiling), while consolidation retains 80.4 +/- 1.3% -- a 43.6 pp gain (paired t(9) = 14.8, p < 0.001) that more than doubles what compaction preserves, with the largest gains on procedural corrections (36.3% -> 74.6%) and episodic project facts (31.5% -> 78.2%). As a methodological aside, mean per-token validation cross-entropy is negatively correlated with LLM-judged accuracy (r = -0.51) while median per-token validation cross-entropy tracks accuracy almost exactly (r = +0.99): under evaluators that tolerate surface-form variation, the mean is misleading and a heavy-tail-robust statistic is the faithful signal. Persistent personalization requires moving beyond inference-only deployment toward architectures that consolidate knowledge into weights.
- Abstract(参考訳): 主要なLLMプラットフォームは、モデルを推論のみの設定でデプロイする。
ユーザは、好み、修正、プロジェクトコンテキストを繰り返し教えなければならない。コンテキストベースの回避策はコンテキストウィンドウスペースを消費し、カスケード圧縮の下で劣化する。
我々は、リフレクション、合成、Low-Rank Adaptation (LoRA) を1つのGPU上で微調整することで、インタラクション知識をモデルウェイトに夜間統合することを評価する。
10つの現実的なソフトウェア開発の会話(n = 10, 1,146 の3つのメモリタイプにわたるテストの質問)、3つのカスケード圧縮のサイクルは36.8 +/-3.0%の知識(11.8%の非コンテキストフロアと90.1%のフルコンテキストの天井の間)を保持し、コンソレーションは80.4 +/- 1.3% -- 43.6ppのゲイン(ペアド t(9) = 14.8, p < 0.001)を保持し、圧縮が保持するものよりも多く、手続き的修正(36.3% -> 74.6%)とエピソードプロジェクト事実(31.5% -> 78.2%)を保持する。
方法としては,LLM-judged 精度 (r = -0.51) と平均値平均値平均値平均値平均値平均値平均値平均値の平均値が負の相関関係にあるのに対して,平均値平均値平均値の平均値の平均値の平均値の平均値の平均値の平均値の平均値が正の信号である(r = +0.99)。
永続的なパーソナライゼーションは、推論のみのデプロイメントを超えて、知識を重みに集約するアーキテクチャへと移行する必要があります。
関連論文リスト
- Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Metric Unreliability in Multimodal Machine Unlearning: A Systematic Analysis and Principled Unified Score [14.579552536669217]
一般データ保護規制法に準拠するためには、ビジョンランゲージモデル(VLM)のアンラーニングが必要である。
マルチモーダル・アンラーニングにおける信頼性の最初の研究について述べる。
統一品質スコア(Unified Quality Score, UQS)は, 各計量のスピアマン相関と距離の関係から得られる重みを持つ計量である。
論文 参考訳(メタデータ) (2026-05-04T04:13:00Z) - Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment [53.72927532626824]
わずか50個のサンプル(0.3%のデータ)のサブセットは、完全なベンチマークスコアと0.93以上のピアソン相関を達成可能であることを示す。
選好をより良く予測するために、選択したサブセットの回帰モデルを訓練し、0.98の相関を達成した。
これは回帰モデリングにおいて、よく計算されたサブセットが完全なベンチマークを予測し、量を超える品質を示すことを示している。
論文 参考訳(メタデータ) (2026-04-20T00:57:31Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - EdgeJury: Cross-Reviewed Small-Model Ensembles for Truthful Question Answering on Serverless Edge Inference [0.0]
EdgeJuryは、真実性と堅牢性を改善する軽量アンサンブルフレームワークです。
TruthfulQA (MC1)では、EdgeJuryの精度は76.2%である。
200-question adversarial EdgeCasesセットでは、EdgeJuryは+48.2%の利得を得る。
論文 参考訳(メタデータ) (2025-12-29T14:48:40Z) - Semantic-Constrained Federated Aggregation: Convergence Theory and Privacy-Utility Bounds for Knowledge-Enhanced Distributed Learning [0.0]
本稿では,ドメイン知識の制約を分散最適化に組み込んだ理論的な基盤を持つフレームワークであるSemantic-Constrained Federated Aggregation(SCFA)を紹介する。
我々は、制約違反率を表す SCFA 収束率 O(1/sqrt(T) + rho) を証明し、制約に基づく連邦学習のための最初の収束理論を確立する。
我々は,Boschの生産データを用いて,118万サンプルと968のセンサ機能を備えた予測保守の枠組みを検証した。
論文 参考訳(メタデータ) (2025-12-12T04:29:29Z) - Pearl: A Foundation Model for Placing Every Atom in the Right Location [52.35027831422145]
タンパク質-リガンド共フォールディングの基礎モデルであるPearlを紹介した。
パールはタンパク質-リガンド結合における新しい最先端性能を確立している。
Pearlは、パブリックなRuns N' PosesとPoseBustersベンチマークでAlphaFold 3や他のオープンソースベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:36:51Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。