論文の概要: Domain-Adapted Small Language Models with Hybrid Post-Processing: Achieving Cost-Efficient, Low-Latency Multi-Label Structured Prediction via LoRA Fine-Tuning on Scarce Data
- arxiv url: http://arxiv.org/abs/2606.05781v2
- Date: Sat, 06 Jun 2026 01:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 12:24:31.352877
- Title: Domain-Adapted Small Language Models with Hybrid Post-Processing: Achieving Cost-Efficient, Low-Latency Multi-Label Structured Prediction via LoRA Fine-Tuning on Scarce Data
- Title(参考訳): ハイブリッド後処理を伴うドメイン適応型小言語モデル:LoRAファインチューニングによるコスト効率・低レイテンシマルチラベル構造予測を実現する
- Authors: Srinivasan Manoharan, Dilipkumar Nallusamy, Sachin Kumar, Haifeng Wu,
- Abstract要約: ドメイン固有の構造化評価タスクのための大規模言語モデル(LLM)は、遅延、コスト、データプライバシオーバーヘッドを禁止します。
本稿では,219個のキュレートされた例に対して,小さな言語モデルを微調整し,決定論的ルールベースの後処理層と結合するハイブリッドフレームワークを提案する。
本システムでは,53件の未確認原稿のブラインド評価において,100%の構造的妥当性,83.0%の人間検証精度,および最重要分類分野における100%の精度を実現している。
- 参考スコア(独自算出の注目度): 6.3745740668603075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying frontier large language models (LLMs) for domain-specific structured evaluation tasks incurs prohibitive latency, cost, and data-privacy overhead. We present a hybrid framework that fine-tunes a small language model (LLaMA 3.1 8B, 2.05% trainable parameters via LoRA) on only 219 curated examples and couples it with a deterministic rule-based postprocessing layer. Applied to multi-label compliance evaluation of conversational transcripts (18 heterogeneous output fields), our system achieves 100% JSON structural validity, 83.0% human-validated overall accuracy, and 100% accuracy on the most critical classification field in blind evaluation on 53 unseen production transcripts. On a single NVIDIA A100 GPU, inference completes in $\sim$2 seconds -- 2--5x faster than frontier APIs -- at USD 0.013 per evaluation versus USD 0.025--0.055 for proprietary alternatives, yielding 46--76% cost savings. We introduce targeted hard-negative augmentation for critical decision boundaries and formalize the hybrid neural-symbolic decomposition, demonstrating that domain-adapted small language models with postprocessing can match frontier model accuracy while dramatically reducing operational cost, latency, and privacy risk.
- Abstract(参考訳): ドメイン固有の構造化評価タスクのためのフロンティア大言語モデル(LLM)のデプロイは、遅延、コスト、データプライバシオーバーヘッドを禁止します。
219個のキュレートされた例のみに小さな言語モデル(LLaMA 3.1 8B、LoRAによるトレーニング可能なパラメータ2.05%)を微調整し、決定論的ルールベースの後処理層と結合するハイブリッドフレームワークを提案する。
対話用テキスト(異種出力フィールド18)の多ラベルコンプライアンス評価に応用し,本システムでは, 100%JSON構造的妥当性, 83.0%人間検証による全体精度, および, 53件の未確認文字の盲点評価において, 最重要分類領域における100%精度を実現している。
1つのNVIDIA A100 GPUにおいて、推論は$\sim$2秒(フロンティアAPIより2~5倍速い)で完了する。
批判的決定境界に対する目標負の強化を導入し、ハイブリッドニューラルシンボリック分解を形式化し、ポストプロセッシングを用いたドメイン適応の小型言語モデルがフロンティアモデルの精度に適合し、運用コスト、レイテンシ、プライバシリスクを劇的に低減できることを示した。
関連論文リスト
- Benchmarking Speech-to-Speech Translation Models [55.00303727199927]
音声音声翻訳(S2ST)は急速に進歩しているが、オフライン評価には統一されたプロトコルが欠けている。
8次元にわたる46のメトリクスを統合するベンチマークフレームワークを導入する。
FLEURSとCVSSから1,248のモデル言語構成でデプロイする。
論文 参考訳(メタデータ) (2026-06-02T07:01:33Z) - Benchmarking Patent Embeddings: A Multi-Task Evaluation of 22 Models Across Retrieval, Classification, and Clustering [0.0]
我々は,情報検索,分類,クラスタリングという3つのタスクに対して,事前学習した22の埋め込みモデルを評価する。
2つの結果は、一般的な知恵に疑問を投げかけている。
論文 参考訳(メタデータ) (2026-05-22T23:51:13Z) - Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Structured Intent as a Protocol-Like Communication Layer: Cross-Model Robustness, Framework Comparison, and the Weak-Model Compensation Effect [0.0]
本稿では、AIモデル、言語、プロンプトフレームワーク間で、確実に構造化された意図表現がいかにユーザ目標を保っているかを検討する。
構造的プロンプトは、非構造的ベースラインに対する言語間スコアのばらつきを著しく低減する。
ユーザ調査では、AIが拡張した5W3Hは、インタラクションラウンドを60%削減し、ユーザの満足度を3.16から4.04に向上させる。
論文 参考訳(メタデータ) (2026-03-31T16:20:28Z) - Brevity Constraints Reverse Performance Hierarchies in Language Models [0.0]
ベンチマーク問題の7.7%では、より大きな言語モデルは10-100倍のパラメータにもかかわらず、より小さな言語モデルよりも28.4ポイント低い。
我々は,このメカニズムを,過度な作業を通じてエラーを発生させる自発的なスケール依存的冗長性として認識する。
この結果から,大規模モデルの性能を最大化するには,スケールアウェア・プロンプト・エンジニアリングが必要であることが判明した。
論文 参考訳(メタデータ) (2026-03-11T06:47:41Z) - Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。
APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。
鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文 参考訳(メタデータ) (2025-04-21T22:29:02Z) - Exploring Small Language Models with Prompt-Learning Paradigm for
Efficient Domain-Specific Text Classification [2.410463233396231]
小型言語モデル(SLM)は、ドメイン固有のタスクに対して、大幅なカスタマイズ性、適応性、コスト効率を提供する。
プロンプトベースのモデル微調整が可能となる場合、T5ベースは220Mパラメータを持つ典型的なSLMであり、ラベル付きデータで約75%の精度が得られる。
固定モデルを用いたゼロショット設定では、約154Bのパラメータを備えたGPT-3.5-turboが55.16%の精度を持つにもかかわらず、よく設計されたプロンプトのパワーが明らかになるという重要な観察結果が得られた。
論文 参考訳(メタデータ) (2023-09-26T09:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。