論文の概要: Tokenizer Fertility and Zero-Shot Performance of Foundation Models on Ukrainian Legal Text: A Comparative Study
- arxiv url: http://arxiv.org/abs/2605.14890v2
- Date: Mon, 18 May 2026 08:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.008657
- Title: Tokenizer Fertility and Zero-Shot Performance of Foundation Models on Ukrainian Legal Text: A Comparative Study
- Title(参考訳): ウクライナ法典における基礎モデルのトークン化率とゼロショット性能 : 比較研究
- Authors: Volodymyr Ovcharov,
- Abstract要約: トケナイザーの出生率は、ウクライナの法文に基づく基礎モデルの1.6倍である。
Qwen 3モデルは同一入力上のLlamaファミリーモデルよりも60%多くトークンを消費する。
パフォーマンスは最大26ポイント低下する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenizer fertility varies 1.6x across foundation models on Ukrainian legal text, yet this cost-critical dimension is absent from model selection practice. We benchmark seven models from five providers on 273 validated court decisions from Ukraine's state registry (EDRSR), measuring tokenizer fertility and zero-shot performance on three tasks. Four findings emerge. (1) Qwen 3 models consume 60% more tokens than Llama-family models on identical input, making tokenizer analysis a prerequisite for cost-efficient deployment. (2) NVIDIA Nemotron Super 3 (120B) achieves the highest composite score (83.1), outperforming Mistral Large 3 (5.6x more total parameters) at one-third the API cost model scale is a poor proxy for domain performance. (3) Few-shot prompting degrades performance by up to 26 percentage points; stratified and prompt-sensitivity ablations confirm this is intrinsic to Ukrainian-language demonstrations, not an artifact of example selection. (4) A cross-temporal generalization experiment reveals that classifiers trained on pre-war court ecisions (2008-2013) lose 27.9 percentage points when applied to full-scale invasion era decisions (2022-2026), with a pronounced forward-backward asymmetry: newer models transfer backward (+14.6 pp above forward transfer), but older models fail catastrophically on wartime legal language. For practitioners: tokenizer analysis should precede model selection, and zero-shot is a more reliable default than few-shot for morphologically rich languages. To support reproducibility and address the absence of Ukrainian from legal NLP benchmarks, we release a public dataset of 14,452 court decisions spanning 2008-2026, annotated with seven outcome labels across three temporal epochs that capture the impact of armed conflict on judicial proceedings.
- Abstract(参考訳): トケナイザーの出生率は、ウクライナの法典上の基礎モデルによって1.6倍に変化するが、このコストクリティカルな次元はモデル選択の実践には欠落している。
われわれは、ウクライナの州登録簿(EDRSR)から検証された裁判所判断を273の5プロバイダーから7つのモデルでベンチマークし、3つのタスクでトークン化率とゼロショットのパフォーマンスを測定した。
4つの発見がある。
1) Qwen 3モデルは同一入力上でLlamaファミリーモデルよりも60%多くトークンを消費し、トークン化分析はコスト効率の高いデプロイの前提条件となる。
2)NVIDIA Nemotron Super 3(120B)は最高合成スコア(83.1)を達成し、APIコストモデルスケールの3分の1でMistral Large 3(合計パラメータの5.6倍)を上回った。
(3) シュート・プロンプトは最大26ポイントまで性能が低下する; 階層化および即敏性改善により、これはウクライナ語による実演に固有のものであり、例選択の成果ではないことが確認される。
(4) クロステンポラル一般化実験により、戦前の裁判所の判断に基づいて訓練された分類器(2008-2013)は、フルスケールの侵略時代決定(2022-2026)に適用すると27.9ポイント減少し、前向き非対称性が顕著であることが明らかとなった:新しいモデルが後方へ転送される(+14.6 pp)が、古いモデルは戦時法言語で破滅的に失敗する。
クリエータ分析はモデル選択に先立って行うべきであり、ゼロショットは形態的にリッチな言語の場合よりも信頼性の高いデフォルトである。
法的なNLPベンチマークからウクライナ人の欠如に対応するため、我々は2008-2026年の間に行われた14,452件の裁判所決定の公開データセットを公表した。
関連論文リスト
- Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty? [59.923111838399144]
本稿では,視覚的審美性ベンチマーク (VAB) を提案する。
VABには400のタスクと1,195のイメージが芸術、写真、イラストに含まれており、ラベルはタスクごとに10人の独立した専門家審査員のコンセンサスから導かれる。
最強のシステムは、人間の専門家が達成した68.9%よりもはるかに低い26.5%のタスクで、候補順の3つのランダムな順で、最良の画像と最悪の画像の両方を正しく識別する。
論文 参考訳(メタデータ) (2026-05-12T19:33:28Z) - Can Small Models Reason About Legal Documents? A Comparative Study [0.0]
大規模言語モデルは法的なアプリケーションには有望であるが、フロンティアモデルのデプロイは、コスト、レイテンシ、データプライバシに関する懸念を提起する。
3つの法的なベンチマークで9つのモデルをテストすることにより,サブ10Bパラメータモデルが実用的な代替手段として機能するかどうかを評価する。
論文 参考訳(メタデータ) (2026-03-26T22:28:20Z) - Evaluating Small Language Models for Front-Door Routing: A Harmonized Benchmark and Synthetic-Traffic Experiment [0.05586191108738562]
小型言語モデル(SLM)は、サブ秒、ゼロマージナルコスト、セルフホストタスクの分類に十分な推論能力を持つ。
Study 1はPhi-3.5-mini、Qwen2.5-1.5B、Qwen-2.5-3Bを同一のAzure T4ハードウェア、サービススタック、量子化、固定60ケースコーパスで同期したオフラインベンチマークである。
研究2は、合成トラフィック下で事前登録された4本腕ランダム化実験であり、有効サンプルサイズは腕あたり60ケースである。
論文 参考訳(メタデータ) (2026-03-26T15:57:46Z) - Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali [0.0]
ネパール語はラテン文字で書かれたネパール語であり、ネパールにおける非公式なデジタルコミュニケーションの主流となっている。
本研究では、3つの同等サイズのオープンウェイトモデルにまたがる言語適応の系統的ベンチマークを示す。
論文 参考訳(メタデータ) (2026-03-25T07:02:51Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Large-Scale Aspect-Based Sentiment Analysis with Reasoning-Infused LLMs [1.4732811715354455]
Arctic-ABSAは、現実のアスペクトベースの感情分析(ABSA)のための強力なモデルの集合体である
当社のモデルは,大規模な公開データコーパスと慎重に生成された合成データに基づいてトレーニングされた商用ニーズに合わせて調整されているため,SemEval14の20倍のデータセットが生成される。
単一の多言語モデルは、英語のパフォーマンスを低下させることなく、6つの言語で87-91%の精度を維持している。
論文 参考訳(メタデータ) (2026-01-07T13:58:29Z) - Evaluating Prompt-Based and Fine-Tuned Approaches to Czech Anaphora Resolution [0.0]
アナフォラ分解は、チェコ語のような形態学的に豊かな言語において、自然言語理解において重要な役割を担っている。
本稿では,チェコ語テキストにおけるアナフォラ分解能に対する2つの近代的アプローチの比較評価を行った。
本研究では,大規模言語モデル (LLM) と微調整型コンパクト生成モデルとの比較を行った。
論文 参考訳(メタデータ) (2025-06-22T16:32:57Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Making Large Language Models Better Reasoners with Step-Aware Verifier [49.16750018427259]
DIVERSE(Diverse Verifier on Reasoning Step)は、言語モデルの推論能力をさらに強化する新しいアプローチである。
最新の言語モデルであるcode-davinci 上で DIVERSE を評価し,8つの推論ベンチマークのうち6つで新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-06T03:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。