Fugu-MT 論文翻訳(概要): SwiLTra-Bench: The Swiss Legal Translation Benchmark

論文の概要: SwiLTra-Bench: The Swiss Legal Translation Benchmark

arxiv url: http://arxiv.org/abs/2503.01372v2
Date: Fri, 30 May 2025 13:48:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 15:03:34.333501
Title: SwiLTra-Bench: The Swiss Legal Translation Benchmark
Title（参考訳）: SwiLTra-Bench: スイスの法律翻訳ベンチマーク
Authors: Joel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gösken, Lorenzo Tanzi, Thomas Lüthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamié, Daniel Brunner, Julio Pereyra, Niko Grupen,
Abstract要約: SwiLTra-Benchは180Kを超えるスイスの法翻訳ペアの総合ベンチマークである。体系的な評価により、フロンティアモデルは全ての文書タイプで優れた翻訳性能が得られることが示された。 SwiLTra-Judgeは、人間の専門家による評価に最適な特殊なLCM評価システムである。
参考スコア（独自算出の注目度）: 10.2713063405843
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In Switzerland legal translation is uniquely important due to the country's four official languages and requirements for multilingual legal documentation. However, this process traditionally relies on professionals who must be both legal experts and skilled translators -- creating bottlenecks and impacting effective access to justice. To address this challenge, we introduce SwiLTra-Bench, a comprehensive multilingual benchmark of over 180K aligned Swiss legal translation pairs comprising laws, headnotes, and press releases across all Swiss languages along with English, designed to evaluate LLM-based translation systems. Our systematic evaluation reveals that frontier models achieve superior translation performance across all document types, while specialized translation systems excel specifically in laws but under-perform in headnotes. Through rigorous testing and human expert validation, we demonstrate that while fine-tuning open SLMs significantly improves their translation quality, they still lag behind the best zero-shot prompted frontier models such as Claude-3.5-Sonnet. Additionally, we present SwiLTra-Judge, a specialized LLM evaluation system that aligns best with human expert assessments.
Abstract（参考訳）: スイスの法律翻訳は、スイスの4つの公用語と多言語法的文書の要件のため、独特に重要である。しかし、このプロセスは伝統的に、法律の専門家と熟練した翻訳家の両方でなければならない専門家に依存している。 SwiLTra-Benchは、LLMベースの翻訳システムを評価するために設計された、スイスのすべての言語にまたがる法則、見出し、プレスリリースを含む180Kを超えるスイスの法律翻訳ペアの包括的な多言語ベンチマークである。体系的な評価により,フロンティアモデルではすべての文書タイプに対して優れた翻訳性能が得られ,特殊な翻訳システムは法則では優れているが,ヘッドノートでは性能は劣ることがわかった。厳密なテストと人間の専門家による検証により、細調整されたSLMは翻訳品質を著しく向上させるが、Claude-3.5-Sonnetのような最高のゼロショット誘導フロンティアモデルに遅れが生じることが実証された。また,人間の専門家による評価と最適に整合する特殊なLCM評価システムであるSwiLTra-Judgeを提案する。

関連論文リスト

From Scratch to Fine-Tuned: A Comparative Study of Transformer Training Strategies for Legal Machine Translation [0.4083182125683813]
法律機械翻訳(L-MT)は、法律文書の正確な翻訳を可能にすることにより、この課題に対するスケーラブルなソリューションを提供する。本稿では, トランスフォーマーを用いた英語・ヒンディー語翻訳に着目し, JUST-NLP 2025 Legal MT共有タスクについて述べる。 SacreBLEU, chrF++, TER, ROUGE, BERTScore, METEOR, COMETなど,標準的なMTメトリクスを使用してパフォーマンスを評価する。
論文参考訳（メタデータ） (2025-12-21T04:45:31Z)
Specification-Aware Machine Translation and Evaluation for Purpose Alignment [10.50113943900077]
専門的な翻訳において仕様が重要な理由に関する理論的根拠を提供するとともに,仕様対応機械翻訳(MT)の実装のための実践的ガイドを提供する。我々は、専門家のエラー分析、ユーザの嗜好ランキング、自動測定値を用いて、人文翻訳と大規模言語モデル(LLM)からのプロンプトベースのアウトプットを含む5つの翻訳タイプを比較した。その結果,仕様書による翻訳は人間の評価において人文翻訳よりも一貫して優れており,知覚と期待される品質のギャップが強調された。
論文参考訳（メタデータ） (2025-09-22T10:50:37Z)
TransLaw: Benchmarking Large Language Models in Multi-Agent Simulation of the Collaborative Translation [1.112686067941444]
TransLawは、実世界の香港の事例法翻訳のために実装された新しいマルチエージェントフレームワークである。翻訳者(Translator)、アノテーション(Annotator)、Proofreader(Proofreader)という3つの専門エージェントを使って、法律的な意味において高精度な翻訳を共同で作成している。
論文参考訳（メタデータ） (2025-07-01T15:39:26Z)
Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文参考訳（メタデータ） (2025-04-20T16:20:30Z)
M-Prometheus: A Suite of Open Multilingual LLM Judges [64.22940792713713]
M-Prometheusは,多言語出力の直接評価とペア比較フィードバックを両立できるオープンウェイトLLM判定器のスイートである。 M-Prometheusモデルは、20以上の言語にまたがる多言語報酬ベンチマークや、4つの言語対をカバーする文語機械翻訳(MT)評価において、最先端のLLM判事より優れている。
論文参考訳（メタデータ） (2025-04-07T11:37:26Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [60.52580061637301]
MMLU-ProXは、言語毎に約11,829の質問を持つ、13の型的多様言語をカバーする包括的なベンチマークである。 5ショットチェーン(CoT)とゼロショットプロンプト戦略を用いて25の最先端の大規模言語モデル(LLM)を評価し,言語的・文化的境界を越えてその性能を解析した。我々の実験は、ハイリソース言語から低リソース言語への一貫したパフォーマンス劣化を示し、最高のモデルは英語で70%以上の精度を達成しているが、Swahiliのような言語では40%程度にまで低下している。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
LLM-based Translation Inference with Iterative Bilingual Understanding [52.46978502902928]
大規模言語モデル(LLM)の言語間機能に基づいた,新しい反復的バイリンガル理解翻訳法を提案する。 LLMの言語横断的能力により、ソース言語とターゲット言語を別々にコンテキスト理解することが可能になる。提案したIBUTは、いくつかの強力な比較法より優れている。
論文参考訳（メタデータ） (2024-10-16T13:21:46Z)
Large Language Models for Classical Chinese Poetry Translation: Benchmarking, Evaluating, and Improving [43.148203559785095]
印象的な多言語機能を持つ大規模言語モデル(LLM)は、この極端な翻訳要求を達成するための希望の光となるかもしれない。本稿ではまず,各漢詩にエレガントな翻訳が認められた適切なベンチマーク(PoetMT)を紹介する。本稿では,GPT-4に基づく新しい測定基準を提案し,現在のLCMがこれらの要求を満たす範囲を評価する。
論文参考訳（メタデータ） (2024-08-19T12:34:31Z)
(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文参考訳（メタデータ） (2024-05-20T05:55:08Z)
Large Language Models "Ad Referendum": How Good Are They at Machine Translation in the Legal Domain? [0.0]
本研究では,法域内の4つの言語対にまたがる伝統型ニューラルネットワーク翻訳(NMT)システムに対して,2つの最先端の大規模言語モデル(LLM)の機械翻訳(MT)の品質を評価する。 AEM(Automatic Evaluation met-rics)とHE(Human Evaluation)を専門のトランスラレータで組み合わせて、翻訳ランク、流用度、妥当性を評価する。
論文参考訳（メタデータ） (2024-02-12T14:40:54Z)
Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文参考訳（メタデータ） (2024-01-12T09:29:13Z)
One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support [18.810320088441678]
この研究は、法域に対する新しいNLPベンチマークを導入している。エンフロング文書(最大50Kトークン)の処理、エンフドメイン固有の知識(法的テキストに具体化されている)、エンフマルチリンガル理解(5つの言語をカバーしている)の5つの重要な側面においてLCMに挑戦する。我々のベンチマークにはスイスの法体系からの多様なデータセットが含まれており、基礎となる非英語、本質的には多言語法体系を包括的に研究することができる。
論文参考訳（メタデータ） (2023-06-15T16:19:15Z)
Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文参考訳（メタデータ） (2023-05-24T12:00:24Z)
Large language models effectively leverage document-level context for literary translation, but critical errors persist [32.54546652197316]
大規模言語モデル(LLM)は、幅広い文レベルの翻訳データセット上での最先端技術と競合する。我々は,Gpt-3.5 (text-davinci-003) LLM) を用いて文節全体を翻訳し,高品質な翻訳を行うという厳密な評価を通して示す。
論文参考訳（メタデータ） (2023-04-06T17:27:45Z)
The FLORES-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation [21.55080388385458]
本研究では,英語ウィキペディアから抽出した3001文からなるFLORES-101評価ベンチマークを紹介する。結果として得られたデータセットは、低リソース言語の長い尾におけるモデル品質のより良い評価を可能にする。
論文参考訳（メタデータ） (2021-06-06T17:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。