論文の概要: From Scratch to Fine-Tuned: A Comparative Study of Transformer Training Strategies for Legal Machine Translation
- arxiv url: http://arxiv.org/abs/2512.18593v1
- Date: Sun, 21 Dec 2025 04:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.407344
- Title: From Scratch to Fine-Tuned: A Comparative Study of Transformer Training Strategies for Legal Machine Translation
- Title(参考訳): Scratch から Fine-Tuned へ: 機械翻訳におけるトランスフォーマー訓練法の比較研究
- Authors: Amit Barman, Atanu Mandal, Sudip Kumar Naskar,
- Abstract要約: 法律機械翻訳(L-MT)は、法律文書の正確な翻訳を可能にすることにより、この課題に対するスケーラブルなソリューションを提供する。
本稿では, トランスフォーマーを用いた英語・ヒンディー語翻訳に着目し, JUST-NLP 2025 Legal MT共有タスクについて述べる。
SacreBLEU, chrF++, TER, ROUGE, BERTScore, METEOR, COMETなど,標準的なMTメトリクスを使用してパフォーマンスを評価する。
- 参考スコア(独自算出の注目度): 0.4083182125683813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multilingual nations like India, access to legal information is often hindered by language barriers, as much of the legal and judicial documentation remains in English. Legal Machine Translation (L-MT) offers a scalable solution to this challenge by enabling accurate and accessible translations of legal documents. This paper presents our work for the JUST-NLP 2025 Legal MT shared task, focusing on English-Hindi translation using Transformer-based approaches. We experiment with 2 complementary strategies, fine-tuning a pre-trained OPUS-MT model for domain-specific adaptation and training a Transformer model from scratch using the provided legal corpus. Performance is evaluated using standard MT metrics, including SacreBLEU, chrF++, TER, ROUGE, BERTScore, METEOR, and COMET. Our fine-tuned OPUS-MT model achieves a SacreBLEU score of 46.03, significantly outperforming both baseline and from-scratch models. The results highlight the effectiveness of domain adaptation in enhancing translation quality and demonstrate the potential of L-MT systems to improve access to justice and legal transparency in multilingual contexts.
- Abstract(参考訳): インドのような多言語国家では、法的な情報へのアクセスは言語障壁によって妨げられることが多く、法律や司法の文書の多くは英語で残されている。
法律機械翻訳(L-MT)は、法律文書の正確でアクセスしやすい翻訳を可能にすることで、この課題に対するスケーラブルなソリューションを提供する。
本稿では, トランスフォーマーを用いた英語・ヒンディー語翻訳に着目し, JUST-NLP 2025 Legal MT共有タスクについて述べる。
本研究では,ドメイン固有適応のための事前学習OPUS-MTモデルを微調整し,与えられた法定コーパスを用いてトランスフォーマーモデルをスクラッチからトレーニングする2つの補完戦略を実験した。
SacreBLEU, chrF++, TER, ROUGE, BERTScore, METEOR, COMETなど,標準的なMTメトリクスを使用してパフォーマンスを評価する。
我々の微調整OPUS-MTモデルは、46.03のSacreBLEUスコアを達成し、ベースラインモデルとオフスクラッチモデルの両方を著しく上回る。
その結果、翻訳品質の向上におけるドメイン適応の有効性を強調し、多言語文脈における正義と法的な透明性へのアクセスを改善するL-MTシステムの可能性を示した。
関連論文リスト
- TransLaw: Benchmarking Large Language Models in Multi-Agent Simulation of the Collaborative Translation [1.112686067941444]
TransLawは、実世界の香港の事例法翻訳のために実装された新しいマルチエージェントフレームワークである。
翻訳者(Translator)、アノテーション(Annotator)、Proofreader(Proofreader)という3つの専門エージェントを使って、法律的な意味において高精度な翻訳を共同で作成している。
論文 参考訳(メタデータ) (2025-07-01T15:39:26Z) - Trans-Zero: Self-Play Incentivizes Large Language Models for Multilingual Translation Without Parallel Data [64.4458540273004]
言語モデル(LLM)の単言語データと本質的な多言語知識のみを活用するセルフプレイフレームワークを提案する。
実験により、このアプローチは大規模並列データに基づいて訓練されたモデルの性能と一致するだけでなく、非英語翻訳の方向でも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-20T16:20:30Z) - (Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts [56.7988577327046]
翻訳企業の役割と協調の実践をシミュレートする,新しいマルチエージェントフレームワークであるTransAgentsを紹介する。
本研究は,翻訳品質の向上,特にテキストの長文化におけるマルチエージェント協調の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-05-20T05:55:08Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Cross-lingual neural fuzzy matching for exploiting target-language
monolingual corpora in computer-aided translation [0.0]
本稿では,ドメイン内ターゲット言語(TL)モノリンガルコーパスの活用を目的とした,新しいニューラルアプローチを提案する。
本手法は,TL単言語コーパスから翻訳提案を検索するための言語間文の埋め込みと,後処理を推定するためのニューラルモデルに頼っている。
本稿では,これらの手法を4つの言語ペア上で自動評価することにより,TMベースのCAT環境におけるモノリンガルテキストの活用に成功していることを示す。
論文 参考訳(メタデータ) (2024-01-16T14:00:28Z) - Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - Transformer-based Approaches for Legal Text Processing [3.4630926944621643]
我々は,COLIEE 2021自動法テキスト処理コンペティションのさまざまな問題に対するトランスフォーマーモデルを用いたアプローチを紹介する。
トランスフォーマーをベースとした事前学習型言語モデルでは, 適切なアプローチで, 自動的な法的テキスト処理問題にうまく対応できることがわかった。
論文 参考訳(メタデータ) (2022-02-13T19:59:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。