論文の概要: SwiLTra-Bench: The Swiss Legal Translation Benchmark
- arxiv url: http://arxiv.org/abs/2503.01372v1
- Date: Mon, 03 Mar 2025 10:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:23.278980
- Title: SwiLTra-Bench: The Swiss Legal Translation Benchmark
- Title(参考訳): SwiLTra-Bench: スイスの法律翻訳ベンチマーク
- Authors: Joel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gösken, Lorenzo Tanzi, Thomas Lüthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamié, Daniel Brunner, Julio Pereyra, Niko Grupen,
- Abstract要約: SwiLTra-Benchは180Kを超えるスイスの法翻訳ペアの総合ベンチマークである。
体系的な評価により、フロンティアモデルは全ての文書タイプで優れた翻訳性能が得られることが示された。
SwiLTra-Judgeは、人間の専門家による評価に最適な特殊なLCM評価システムである。
- 参考スコア(独自算出の注目度): 10.2713063405843
- License:
- Abstract: In Switzerland legal translation is uniquely important due to the country's four official languages and requirements for multilingual legal documentation. However, this process traditionally relies on professionals who must be both legal experts and skilled translators -- creating bottlenecks and impacting effective access to justice. To address this challenge, we introduce SwiLTra-Bench, a comprehensive multilingual benchmark of over 180K aligned Swiss legal translation pairs comprising laws, headnotes, and press releases across all Swiss languages along with English, designed to evaluate LLM-based translation systems. Our systematic evaluation reveals that frontier models achieve superior translation performance across all document types, while specialized translation systems excel specifically in laws but under-perform in headnotes. Through rigorous testing and human expert validation, we demonstrate that while fine-tuning open SLMs significantly improves their translation quality, they still lag behind the best zero-shot prompted frontier models such as Claude-3.5-Sonnet. Additionally, we present SwiLTra-Judge, a specialized LLM evaluation system that aligns best with human expert assessments.
- Abstract(参考訳): スイスの法律翻訳は、スイスの4つの公用語と多言語法的文書の要件のため、独特に重要である。
しかし、このプロセスは伝統的に、法律の専門家と熟練した翻訳家の両方でなければならない専門家に依存している。
SwiLTra-Benchは、LLMベースの翻訳システムを評価するために設計された、スイスのすべての言語にまたがる法則、見出し、プレスリリースを含む180Kを超えるスイスの法律翻訳ペアの包括的な多言語ベンチマークである。
体系的な評価により,フロンティアモデルではすべての文書タイプに対して優れた翻訳性能が得られ,特殊な翻訳システムは法則では優れているが,ヘッドノートでは性能は劣ることがわかった。
厳密なテストと人間の専門家による検証により、細調整されたSLMは翻訳品質を著しく向上させるが、Claude-3.5-Sonnetのような最高のゼロショット誘導フロンティアモデルに遅れが生じることが実証された。
また,人間の専門家による評価と最適に整合する特殊なLCM評価システムであるSwiLTra-Judgeを提案する。
関連論文リスト
- LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。
LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。
提案したIBUTは、いくつかの強力な比較法より優れている。
論文 参考訳(メタデータ) (2024-10-16T13:21:46Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [52.18246881218829]
本稿では,大言語モデル(LLM)をベースとした多エージェントフレームワークを,TransAgentsという企業として実装した。
本システムの有効性を評価するため,モノリンガル・ヒューマン・プライス(MHP)とバイリンガル・LLM・プライス(BLP)の2つの革新的な評価戦略を提案する。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - Large Language Models "Ad Referendum": How Good Are They at Machine
Translation in the Legal Domain? [0.0]
本研究では,法域内の4つの言語対にまたがる伝統型ニューラルネットワーク翻訳(NMT)システムに対して,2つの最先端の大規模言語モデル(LLM)の機械翻訳(MT)の品質を評価する。
AEM(Automatic Evaluation met-rics)とHE(Human Evaluation)を専門のトランスラレータで組み合わせて、翻訳ランク、流用度、妥当性を評価する。
論文 参考訳(メタデータ) (2024-02-12T14:40:54Z) - Enhancing Document-level Translation of Large Language Model via
Translation Mixed-instructions [24.025242477280983]
機械翻訳のための既存の大きな言語モデル(LLM)は、典型的には文レベルの翻訳命令に基づいて微調整される。
この課題は、文レベルのカバレッジの問題から生じ、文書のその後の文は転写されないままである。
様々な長さの文レベルと文書レベルの翻訳命令を微調整LLMに結合する手法を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:28:26Z) - One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support [18.810320088441678]
この研究は、法域に対する新しいNLPベンチマークを導入している。
エンフロング文書(最大50Kトークン)の処理、エンフドメイン固有の知識(法的テキストに具体化されている)、エンフマルチリンガル理解(5つの言語をカバーしている)の5つの重要な側面においてLCMに挑戦する。
我々のベンチマークにはスイスの法体系からの多様なデータセットが含まれており、基礎となる非英語、本質的には多言語法体系を包括的に研究することができる。
論文 参考訳(メタデータ) (2023-06-15T16:19:15Z) - Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。
本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:00:24Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z) - Large language models effectively leverage document-level context for
literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。
我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文 参考訳(メタデータ) (2023-04-06T17:27:45Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual
Machine Translation [21.55080388385458]
本研究では,英語ウィキペディアから抽出した3001文からなるFLORES-101評価ベンチマークを紹介する。
結果として得られたデータセットは、低リソース言語の長い尾におけるモデル品質のより良い評価を可能にする。
論文 参考訳(メタデータ) (2021-06-06T17:58:12Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。