論文の概要: Swiss-Bench SBP-002: A Frontier Model Comparison on Swiss Legal and Regulatory Tasks
- arxiv url: http://arxiv.org/abs/2603.23646v1
- Date: Tue, 24 Mar 2026 18:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:10.991003
- Title: Swiss-Bench SBP-002: A Frontier Model Comparison on Swiss Legal and Regulatory Tasks
- Title(参考訳): スイス・ベンチ SBP-002:スイス法と規制課題のフロンティアモデルの比較
- Authors: Fatih Uenal,
- Abstract要約: 既存のベンチマークでは、適用されたスイスの規制タスクにおけるフロンティアモデルのパフォーマンスを評価していない。
スイス・ベンチ(Swiss-Bench)は、スイスの3つの規制ドメインにまたがる395のエキスパート工芸品のトリンガルベンチマークである。
私は、構造化された3次元スコアリングフレームワークを使用して、2026年3月からの10つのフロンティアモデルを評価します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While recent work has benchmarked large language models on Swiss legal translation (Niklaus et al., 2025) and academic legal reasoning from university exams (Fan et al., 2025), no existing benchmark evaluates frontier model performance on applied Swiss regulatory compliance tasks. I introduce Swiss-Bench SBP-002, a trilingual benchmark of 395 expert-crafted items spanning three Swiss regulatory domains (FINMA, Legal-CH, EFK), seven task types, and three languages (German, French, Italian), and evaluate ten frontier models from March 2026 using a structured three-dimension scoring framework assessed via a blind three-judge LLM panel (GPT-4o, Claude Sonnet 4, Qwen3-235B) with majority-vote aggregation and weighted kappa = 0.605, with reference answers validated by an independent human legal expert on a 100-item subset (73% rated Correct, 0% Incorrect, perfect Legal Accuracy). Results reveal three descriptive performance clusters: Tier A (35-38% correct), Tier B (26-29%), and Tier C (13-21%). The benchmark proves difficult: even the top-ranked model (Qwen 3.5 Plus) achieves only 38.2% correct, with 47.3% incorrect and 14.4% partially correct. Task type difficulty varies widely: legal translation and case analysis yield 69-72% correct rates, while regulatory Q&A, hallucination detection, and gap analysis remain below 9%. Within this roster (seven open-weight, three closed-source), an open-weight model leads the ranking, and several open-weight models match or outperform their closed-source counterparts. These findings provide an initial empirical reference point for assessing frontier model capability on Swiss regulatory tasks under zero-retrieval conditions.
- Abstract(参考訳): 最近の研究はスイスの法律翻訳(Niklaus et al , 2025)と大学試験(Fan et al , 2025)による学術的法的推論に関する大規模な言語モデルをベンチマークしているが、スイスの規制遵守タスクにおけるフロンティアモデルのパフォーマンスを評価するベンチマークは存在しない。
スイスの3つの規制ドメイン(FINMA, Legal-CH, EFK),7つのタスクタイプ,および3つの言語(ドイツ語,フランス語,イタリア語)にまたがる395のエキスパート工芸品のトリリンガルベンチマークであるSwiss-Bench SBP-002を紹介します。
その結果, Tier A (35-38%の正解), Tier B (26-29%), Tier C (13-21%) の3つの説明的パフォーマンスクラスタが明らかになった。
トップランクのモデル(Qwen 3.5 Plus)でさえわずか38.2%の精度しか達成せず、47.3%が誤り14.4%が部分的に正しい。
法的翻訳とケース分析は69-72%の精度で正しいが、規制Q&A、幻覚検出、ギャップ分析は9%以下である。
このロースター(7つのオープンソース、3つのクローズドソース)の中で、オープンウェイトモデルがランキングをリードし、いくつかのオープンウェイトモデルはクローズドソースモデルと一致するか、上回っている。
これらの結果から,ゼロ検索条件下でのスイスの規制タスクにおけるフロンティアモデル能力を評価するための実証的基準点が得られた。
関連論文リスト
- CAPITU: A Benchmark for Evaluating Instruction-Following in Brazilian Portuguese with Literary Context [8.678622777553267]
CAPITUは、ブラジルポルトガル語でLLM(Large Language Models)の命令追従能力を評価するためのベンチマークである。
ベンチマークは59の命令タイプを7つのカテゴリに分類し、すべて自動的に検証できるように設計されている。
シングルターンおよびマルチターン設定における18の最先端モデルを評価する。
論文 参考訳(メタデータ) (2026-03-23T21:16:54Z) - Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model [0.0]
ポーランド語大言語モデルに適用された極端2ビット量子化の最初の体系的学術評価であるBielik-Q2-Sharpを提案する。
我々は、QuIP#、SpinQuant+GPTQ、ButterflyQuant、QTIP、VPTQ、AQLMの6つの最先端のポストトレーニング量子化手法を比較した。
私たちのベストバリアント(QuIP# E8P12)は22のポーランドのベンチマークで71.92%、IQ2_XXSベースラインでは72.07%を達成しています。
論文 参考訳(メタデータ) (2026-03-04T15:19:35Z) - PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - Classification or Prompting: A Case Study on Legal Requirements Traceability [4.629156733452248]
法的要件のトレーサビリティは、エンジニアがターゲットのアーティファクトに対する技術的要件を分析するための重要なタスクである。
本稿では,言語モデルに基づく2つの自動解について検討する。
最初のソリューションであるKashifは、文変換器と意味的類似性を利用する分類器である。
第2のソリューションであるRICE_LRTは、プロンプトエンジニアリングフレームワークであるRICEをベースにした、最近のジェネレーティブLLMを誘導する。
論文 参考訳(メタデータ) (2025-02-07T13:33:40Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。