論文の概要: Quecto-V1: Empirical Analysis of 8-bit Quantized Small Language Models for On-Device Legal Retrieval
- arxiv url: http://arxiv.org/abs/2602.16640v1
- Date: Wed, 18 Feb 2026 17:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.667914
- Title: Quecto-V1: Empirical Analysis of 8-bit Quantized Small Language Models for On-Device Legal Retrieval
- Title(参考訳): Quecto-V1:オンデバイス法定検索のための8ビット量子化小言語モデルの実証分析
- Authors: Subrit Dikshit,
- Abstract要約: 本稿では、インドの法律情報へのアクセスを民主化するために設計されたドメイン固有小言語モデル(SLM)であるQuecto-V1を紹介する。
Quecto-V1は、インド刑法典(IPC)、刑事訴訟法典(CrPC)、インド憲法などのインド法典のコーパスのみに基づいて、ゼロから訓練された。
本稿では,Quecto-V1が法定定義と罰則の検索において高い忠実性を達成し,ドメイン固有の正確なマッチングタスクにおいて汎用SLMよりも優れた性能を示すことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of Large Language Models (LLMs) has revolutionized Natural Language Processing (NLP) but has simultaneously created a "resource divide." State-of-the-art legal intelligence systems typically rely on massive parameter counts (7B+) and cloud-based inference, rendering them inaccessible to practitioners in resource-constrained environments and posing significant data sovereignty risks. This paper introduces Quecto-V1, a domain-specific Small Language Model (SLM) engineered to democratize access to Indian legal intelligence. Built upon a custom configuration of the GPT-2 architecture (124 million parameters), Quecto-V1 was trained from scratch exclusively on a corpus of Indian statutes, including the Indian Penal Code (IPC), the Code of Criminal Procedure (CrPC), and the Constitution of India. Unlike generalist models, which prioritize broad world knowledge, our approach maximizes "lexical density" within the legal domain. Furthermore, we address the deployment bottleneck by applying post-training 8-bit quantization (GGUF format), compressing the model to a memory footprint of under 150 MB. Our empirical analysis demonstrates that Quecto-V1 achieves high fidelity in retrieving statutory definitions and penal provisions, outperforming general-purpose SLMs in domain-specific exact match tasks while running entirely offline on consumer-grade CPUs. We further present an ablation study showing that 8-bit quantization yields a 74% reduction in model size with less than 3.5% degradation in retrieval accuracy compared to full-precision baselines. These findings suggest that for specialized, high-stakes domains like law, domain-specific training coupled with aggressive quantization offers a viable, privacy-preserving alternative to monolithic cloud models.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な普及は自然言語処理(NLP)に革命をもたらしたが、同時に「資源分割」を生み出した。
最先端の法的なインテリジェンスシステムは一般的に、大量のパラメータ数(7B+)とクラウドベースの推論に依存しており、リソースに制約された環境で実践者にアクセスできなくなり、データ主権の重大なリスクを生じさせる。
本稿では、インドの法律情報へのアクセスを民主化するために設計されたドメイン固有小言語モデル(SLM)であるQuecto-V1を紹介する。
GPT-2アーキテクチャ(1億2400万のパラメータ)のカスタム構成に基づいて構築されたQuecto-V1は、インド刑法典(IPC)、刑事訴訟法典(CrPC)、インド憲法など、インド法典のコーパスのみをスクラッチからトレーニングした。
幅広い世界の知識を優先する一般モデルとは異なり、我々のアプローチは法域内の「語彙密度」を最大化する。
さらに、トレーニング後8ビット量子化(GGUFフォーマット)を適用し、150MB未満のメモリフットプリントにモデルを圧縮することで、デプロイメントボトルネックに対処する。
実証分析により,Quecto-V1は,一般のCPU上で完全にオフラインで動作しながら,ドメイン固有の厳密なマッチングタスクにおいて汎用SLMよりも優れ,法定定義と罰則の検索において高い忠実性を実現することが示された。
さらに,8ビットの量子化がモデルサイズを74%削減し,精度が3.5%未満であることを示すアブレーション実験を行った。
これらの結果は、法律のような専門性の高いドメインでは、ドメイン固有のトレーニングとアグレッシブな量子化が、モノリシッククラウドモデルに代わる実行可能なプライバシ保護の代替となることを示唆している。
関連論文リスト
- Unilaw-R1: A Large Language Model for Legal Reasoning with Reinforcement Learning and Iterative Inference [15.567885200167913]
法的な推論に適した大規模言語モデルであるUnilaw-R1を紹介する。
軽量な7ビリオンパラメータスケールにより、Unilaw-R1はデプロイメントコストを大幅に削減する。
法律分野では、不十分な法的知識、信頼できない推論論理、弱いビジネス一般化の3つの主要な課題に取り組む。
論文 参考訳(メタデータ) (2025-10-11T07:17:22Z) - Quantized Large Language Models in Biomedical Natural Language Processing: Evaluation and Recommendation [23.003923723432436]
本研究では,12種類の大規模言語モデルに対する量子化の影響を系統的に評価した。
量子化はGPUメモリの要求を最大75%減らし、様々なタスクでモデル性能を保っていることを示す。
論文 参考訳(メタデータ) (2025-09-04T04:18:45Z) - Fine-tuning a Large Language Model for Automating Computational Fluid Dynamics Simulations [11.902947290205645]
大規模言語モデル(LLM)は高度な科学計算を持ち、CFDでの使用は自動化されている。
ドメイン固有LLM適応に着目した新しいアプローチを提案する。
マルチエージェントフレームワークはプロセスをオーケストレーションし、入力を自律的に検証し、構成を生成し、シミュレーションを実行し、エラーを修正する。
論文 参考訳(メタデータ) (2025-04-13T14:35:30Z) - Fragile Mastery: Are Domain-Specific Trade-Offs Undermining On-Device Language Models? [0.0]
Generalized Edge Model (GEM) は、堅牢性と一般化を調和的にバランスさせることを目的としている。
GEMはSparse Cross-Attention Router (SCAR) を使用して、可変数のコンピューティングリソースに動的に割り当てる。
GPT-4 Liteと比較して、GEMはドメイン固有のパフォーマンスの尊重と同等性に対して、一般タスクレベルを7%向上させる。
論文 参考訳(メタデータ) (2025-03-16T18:30:26Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation? [3.9018931027384056]
パラマヌ・アイン(Paramanu-Ayn)は、インドの訴訟文書に特化して訓練された法律言語モデルのコレクションである。
Paramanu-Aynは1つのGPU上でわずか185時間、コンテキストサイズ8192のスクラッチから事前トレーニングされた。
論文 参考訳(メタデータ) (2024-03-20T15:39:54Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。