論文の概要: Domain-Adapted Small Language Models with Hybrid Post-Processing: Achieving Cost-Efficient, Low-Latency Multi-Label Structured Prediction via LoRA Fine-Tuning on Scarce Data
- arxiv url: http://arxiv.org/abs/2606.05781v1
- Date: Thu, 04 Jun 2026 07:09:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.613419
- Title: Domain-Adapted Small Language Models with Hybrid Post-Processing: Achieving Cost-Efficient, Low-Latency Multi-Label Structured Prediction via LoRA Fine-Tuning on Scarce Data
- Title(参考訳): ハイブリッド後処理を伴うドメイン適応型小言語モデル:LoRAファインチューニングによるコスト効率・低レイテンシマルチラベル構造予測を実現する
- Authors: Srinivasan Manoharan, Dilipkumar Nallusamy, Sachin Kumar, Haifeng Wu,
- Abstract要約: 本稿では、微調整された小言語モデルと決定論的ルールベースの後処理層を組み合わせたハイブリッドフレームワークを提案する。
1つのNVIDIA A100 GPU上で実行される推論は約2秒で完了し、フロンティアモデルAPIよりも2~5倍高速である。
その結果、ドメイン適応型小言語モデルと決定論的後処理を組み合わせれば、構造化されたコンプライアンス評価のためのフロンティアモデルの精度が一致することを示した。
- 参考スコア(独自算出の注目度): 6.3745740668603075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying frontier large language models (LLMs) for domain-specific structured evaluation tasks often incurs substantial latency, cost, and data privacy overhead. We present a hybrid framework that combines a fine-tuned small language model (LLaMA 3.1 8B, with only 2.05% trainable parameters via LoRA) and a deterministic rule-based post-processing layer. Trained on just 219 curated examples, the system is applied to multi-label compliance evaluation of conversational transcripts spanning 18 heterogeneous output fields. In blind evaluation on 53 previously unseen production transcripts, it achieves 100% JSON structural validity, 83.0% human-validated overall accuracy, and 100% accuracy on the most critical classification field. The proposed approach formalizes a hybrid neural-symbolic decomposition and introduces targeted hard-negative augmentation to improve performance on critical decision boundaries. Running on a single NVIDIA A100 GPU, inference completes in approximately 2 seconds, which is 2-5x faster than frontier-model APIs. The system costs only $0.013 per evaluation compared with $0.025-$0.055 for proprietary alternatives, resulting in 46-76% cost savings. These results demonstrate that domain-adapted small language models, when combined with deterministic post-processing, can match frontier-model accuracy for structured compliance evaluation while substantially reducing operational cost, latency, and privacy risk. Keywords: small language models, parameter-efficient fine-tuning, LoRA, domain adaptation, hybrid inference, compliance evaluation, structured output.
- Abstract(参考訳): ドメイン固有の構造化評価タスクのためのフロンティア大言語モデル(LLM)のデプロイは、大きなレイテンシ、コスト、データプライバシのオーバーヘッドを引き起こすことが多い。
本稿では,微調整された小言語モデル(LLaMA 3.1 8B,LoRAによるトレーニング可能なパラメータはわずか2.05%)と決定論的ルールベースの後処理層を組み合わせたハイブリッドフレームワークを提案する。
このシステムは、219個のキュレートされた例に基づいて、18個の異種出力フィールドにまたがる対話文のマルチラベルコンプライアンス評価に適用される。
これまでに見つからなかった53個の生産写本のブラインド評価では、100%JSON構造的妥当性、83.0%の人間検証された全体的な精度、そして最も重要な分類分野における100%の精度を実現している。
提案手法は, ハイブリッド型ニューラルシンボリック分解を形式化し, 批判的決定境界における性能向上のために, 目標とする強陰性増強を導入する。
1つのNVIDIA A100 GPU上で実行される推論は約2秒で完了し、フロンティアモデルAPIよりも2~5倍高速である。
システム評価は0.013ドルであり、プロプライエタリな代替品は0.025-0.055ドルであり、46-76%のコスト削減となる。
これらの結果は、ドメイン適応型小言語モデルと決定論的後処理を組み合わせれば、運用コスト、レイテンシ、プライバシリスクを大幅に低減しつつ、構造化されたコンプライアンス評価のためのフロンティアモデル精度に適合することを示した。
キーワード:小さな言語モデル、パラメータ効率の良い微調整、LoRA、ドメイン適応、ハイブリッド推論、コンプライアンス評価、構造化出力。
関連論文リスト
- Benchmarking Speech-to-Speech Translation Models [55.00303727199927]
音声音声翻訳(S2ST)は急速に進歩しているが、オフライン評価には統一されたプロトコルが欠けている。
8次元にわたる46のメトリクスを統合するベンチマークフレームワークを導入する。
FLEURSとCVSSから1,248のモデル言語構成でデプロイする。
論文 参考訳(メタデータ) (2026-06-02T07:01:33Z) - Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering [0.0]
我々は,情報検索,分類,クラスタリングという3つのタスクに対して,事前学習した22の埋め込みモデルを評価する。
2つの結果は、一般的な知恵に疑問を投げかけている。
論文 参考訳(メタデータ) (2026-05-22T23:51:13Z) - Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Structured Intent as a Protocol-Like Communication Layer: Cross-Model Robustness, Framework Comparison, and the Weak-Model Compensation Effect [0.0]
本稿では、AIモデル、言語、プロンプトフレームワーク間で、確実に構造化された意図表現がいかにユーザ目標を保っているかを検討する。
構造的プロンプトは、非構造的ベースラインに対する言語間スコアのばらつきを著しく低減する。
ユーザ調査では、AIが拡張した5W3Hは、インタラクションラウンドを60%削減し、ユーザの満足度を3.16から4.04に向上させる。
論文 参考訳(メタデータ) (2026-03-31T16:20:28Z) - Brevity Constraints Reverse Performance Hierarchies in Language Models [0.0]
ベンチマーク問題の7.7%では、より大きな言語モデルは10-100倍のパラメータにもかかわらず、より小さな言語モデルよりも28.4ポイント低い。
我々は,このメカニズムを,過度な作業を通じてエラーを発生させる自発的なスケール依存的冗長性として認識する。
この結果から,大規模モデルの性能を最大化するには,スケールアウェア・プロンプト・エンジニアリングが必要であることが判明した。
論文 参考訳(メタデータ) (2026-03-11T06:47:41Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。