論文の概要: Tokenizer Fertility and Zero-Shot Performance of Foundation Models on Ukrainian Legal Text: A Comparative Study
- arxiv url: http://arxiv.org/abs/2605.14890v1
- Date: Thu, 14 May 2026 14:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.876288
- Title: Tokenizer Fertility and Zero-Shot Performance of Foundation Models on Ukrainian Legal Text: A Comparative Study
- Title(参考訳): ウクライナ法典における基礎モデルのトークン化率とゼロショット性能 : 比較研究
- Authors: Volodymyr Ovcharov,
- Abstract要約: われわれは、ウクライナの州登録簿から検証された273の判決に対して、5つのプロバイダから7つのモデルをベンチマークした。
Qwen3モデルはラマ系モデルよりも60%多くトークンを消費する。
ショットのプロンプトによってパフォーマンスが最大26ポイント低下する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models tokenize Ukrainian legal text with vastly different efficiency, yet no systematic comparison exists for this domain. We benchmark seven models from five providers on 273 validated court decisions from Ukraine's state registry (EDRSR), measuring tokenizer fertility and zero-shot performance on three tasks. Three findings emerge. (1) Tokenizer fertility varies 1.6x: Qwen3 models consume 60% more tokens than Llama-family models on identical input, directly reducing API cost. (2) NVIDIA Nemotron Super 3 (120B) achieves the highest composite score (83.1), outperforming Mistral Large 3 (675B total, 41B active) -- a model with 5.6x more total parameters and 3.4x more active parameters per token -- at one-third the API cost. (3) Few-shot prompting degrades performance by up to 26 percentage points; stratified and prompt-sensitivity ablations confirm this is intrinsic to Ukrainian-language demonstrations, not an artifact of example selection. For practitioners: tokenizer analysis should precede model selection, and zero-shot is a more reliable default than few-shot for morphologically rich languages.
- Abstract(参考訳): 基礎モデルはウクライナの法文を非常に異なる効率でトークン化するが、この領域では体系的な比較は存在しない。
われわれは、ウクライナの州登録簿(EDRSR)から検証された裁判所判断を273の5プロバイダーから7つのモデルでベンチマークし、3つのタスクでトークン化率とゼロショットのパフォーマンスを測定した。
3つの発見がある。
Qwen3モデルは同一入力でLlamaファミリーモデルよりも60%多くトークンを消費し、APIコストを直接削減する。
2)NVIDIA Nemotron Super 3 (120B) は最高合成スコア (83.1) を獲得し、Mistral Large 3 (675Bトータル、41Bアクティブ) -- 合計パラメータの5.6倍、トークン当たりのアクティブパラメータの3.4倍 -- をAPIコストの3分の1で上回る。
(3) シュート・プロンプトは最大26ポイントまで性能が低下する; 階層化および即敏性改善により、これはウクライナ語による実演に固有のものであり、例選択の成果ではないことが確認される。
クリエータ分析はモデル選択に先立って行うべきであり、ゼロショットは形態的にリッチな言語の場合よりも信頼性の高いデフォルトである。
関連論文リスト
- Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty? [59.923111838399144]
本稿では,視覚的審美性ベンチマーク (VAB) を提案する。
VABには400のタスクと1,195のイメージが芸術、写真、イラストに含まれており、ラベルはタスクごとに10人の独立した専門家審査員のコンセンサスから導かれる。
最強のシステムは、人間の専門家が達成した68.9%よりもはるかに低い26.5%のタスクで、候補順の3つのランダムな順で、最良の画像と最悪の画像の両方を正しく識別する。
論文 参考訳(メタデータ) (2026-05-12T19:33:28Z) - Can Small Models Reason About Legal Documents? A Comparative Study [0.0]
大規模言語モデルは法的なアプリケーションには有望であるが、フロンティアモデルのデプロイは、コスト、レイテンシ、データプライバシに関する懸念を提起する。
3つの法的なベンチマークで9つのモデルをテストすることにより,サブ10Bパラメータモデルが実用的な代替手段として機能するかどうかを評価する。
論文 参考訳(メタデータ) (2026-03-26T22:28:20Z) - Evaluating Small Language Models for Front-Door Routing: A Harmonized Benchmark and Synthetic-Traffic Experiment [0.05586191108738562]
小型言語モデル(SLM)は、サブ秒、ゼロマージナルコスト、セルフホストタスクの分類に十分な推論能力を持つ。
Study 1はPhi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを同一のAzure T4ハードウェア、サービススタック、量子化、固定60ケースコーパスで同期したオフラインベンチマークである。
研究2は、合成トラフィック下で事前登録された4本腕ランダム化実験であり、有効サンプルサイズは腕あたり60ケースである。
論文 参考訳(メタデータ) (2026-03-26T15:57:46Z) - Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali [0.0]
ネパール語はラテン文字で書かれたネパール語であり、ネパールにおける非公式なデジタルコミュニケーションの主流となっている。
本研究では、3つの同等サイズのオープンウェイトモデルにまたがる言語適応の系統的ベンチマークを示す。
論文 参考訳(メタデータ) (2026-03-25T07:02:51Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Large-Scale Aspect-Based Sentiment Analysis with Reasoning-Infused LLMs [1.4732811715354455]
Arctic-ABSAは、現実のアスペクトベースの感情分析(ABSA)のための強力なモデルの集合体である
当社のモデルは,大規模な公開データコーパスと慎重に生成された合成データに基づいてトレーニングされた商用ニーズに合わせて調整されているため,SemEval14の20倍のデータセットが生成される。
単一の多言語モデルは、英語のパフォーマンスを低下させることなく、6つの言語で87-91%の精度を維持している。
論文 参考訳(メタデータ) (2026-01-07T13:58:29Z) - Evaluating Prompt-Based and Fine-Tuned Approaches to Czech Anaphora Resolution [0.0]
アナフォラ分解は、チェコ語のような形態学的に豊かな言語において、自然言語理解において重要な役割を担っている。
本稿では,チェコ語テキストにおけるアナフォラ分解能に対する2つの近代的アプローチの比較評価を行った。
本研究では,大規模言語モデル (LLM) と微調整型コンパクト生成モデルとの比較を行った。
論文 参考訳(メタデータ) (2025-06-22T16:32:57Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。