論文の概要: LuxMT Technical Report
- arxiv url: http://arxiv.org/abs/2602.15506v1
- Date: Tue, 17 Feb 2026 11:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.045449
- Title: LuxMT Technical Report
- Title(参考訳): LuxMT技術報告
- Authors: Nils Rehlinger,
- Abstract要約: Gemma 3 27Bをベースとした機械翻訳システムLuxMTを紹介し,Luxembourgish (LB)からフランス語 (FR) と英語 (EN) への翻訳を微調整した。
LB-FR, LB-EN, LB-FRをカバーする新しいベンチマークを, ルクセンブルクの観光雑誌Luciの人間翻訳データを用いて構築した。
全体として、LuxMTの結果は、LBをドイツ語に翻訳する場合でも、Gemma 3のベースラインよりも大幅に改善されていることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LuxMT, a machine translation system based on Gemma 3 27B and fine-tuned for translation from Luxembourgish (LB) into French (FR) and English (EN). To assess translation performance, we construct a novel benchmark covering LB-FR, LB-EN, and LB-FR using human-translated data from Luci, a tourist magazine about Luxembourg. Training data stems from LuxAlign, a parallel corpus of multilingual Luxembourgish news articles, and LB parliamentary transcripts augmented with Google Translate. We filter the data using LuxEmbedder, LB sentence embeddings, to remove low-equivalence segment-pairs. Overall, LuxMT's results suggest strong improvements over the Gemma 3 baseline, even for translating LB to German (DE), despite the training data not containing any DE. We also explore LuxEmbedder's potential to be used as a quality estimation metric and find strong correlations with other reference-based metrics. However, we call for further research to fully assess the metric's utility and advise using it with caution.
- Abstract(参考訳): 本稿では,Gemma 3 27Bに基づく機械翻訳システムLuxMTを紹介し,Luxembourgish (LB) からフランス語 (FR) と英語 (EN) への翻訳を微調整した。
LB-FR, LB-EN, LB-FRの翻訳性能を評価するため, ルクセンブルクの観光雑誌Luciの人間翻訳データを用いて, LB-FR, LB-EN, LB-FRをカバーする新しいベンチマークを構築した。
トレーニングデータは、多言語Luxembourgishニュース記事の並列コーパスであるLuxAlignと、Google Translateで強化されたLB議会文書に由来する。
我々はLuxEmbedder, LB文の埋め込みを用いてデータをフィルタリングし, 低等価セグメントペアを除去する。
全体として、LuxMTの結果は、DEMを含まないトレーニングデータにもかかわらず、LBをドイツ語(DE)に翻訳する場合でも、Gemma 3ベースラインに対する強力な改善が示唆されている。
また、LuxEmbedderが品質評価指標として使われる可能性についても検討し、他の基準ベースの指標と強い相関関係を見出す。
しかし,本研究では,メトリクスの有用性を十分に評価し,慎重に使用することを推奨するさらなる研究を求めている。
関連論文リスト
- LuxIT: A Luxembourgish Instruction Tuning Dataset from Monolingual Seed Data [2.383798778903081]
LuxITは、この課題を緩和するために開発されたLuxembourgishのための新しい単言語命令チューニングデータセットである。
我々は,Luxembourgishの習熟度を示すために選択されたDeepSeek-R1-0528を用いて,Luxembourgish原文のコーパスからデータセットを合成した。
論文 参考訳(メタデータ) (2025-10-28T14:02:55Z) - DITING: A Multi-Agent Evaluation Framework for Benchmarking Web Novel Translation [31.1561882673283]
DIINGは、Webノベル翻訳のための最初の総合的な評価フレームワークである。
AgentEvalは専門家による検討をシミュレートし、語彙オーバーラップを超えて翻訳品質を評価する。
誤りラベルとスカラー品質スコアを付加した300文対のメタ評価データセットであるMetricAlignを開発した。
論文 参考訳(メタデータ) (2025-10-10T08:10:10Z) - Data Augmentation With Back translation for Low Resource languages: A case of English and Luganda [0.0]
本稿では,英語とルガンダ語を併用したニューラル機械翻訳モデルを構築するための半教師付き手法として,バック翻訳の適用について検討する。
提案手法では,公開データとウェブクローリングデータの両方を用いて独自のNMTモデルを構築し,反復および増分バック翻訳手法を適用した。
その結果,英ラガンダ対の翻訳性能は,全翻訳方向の10点以上のBLEUスコアユニットで過去のベンチマークを上回った。
論文 参考訳(メタデータ) (2025-05-05T08:47:52Z) - Exploring Large Language Models for Translating Romanian Computational Problems into English [0.0]
本研究では,ロバストな大規模言語モデル(LLM)が,十分に構造化されたプロンプトを与えられた場合,あまり一般的でない言語を翻訳する際に,その性能を維持あるいは向上できることを示す。
OpenRoLLM, Llama 3.1 8B, Llama 3.2 3B, GPT-4o など, 複数の LLM の翻訳手法について検討した。
論文 参考訳(メタデータ) (2025-01-09T22:17:44Z) - Context-Aware or Context-Insensitive? Assessing LLMs' Performance in Document-Level Translation [10.174848090916669]
大規模言語モデル(LLM)は、機械翻訳においてますます強力な競争相手となっている。
文章の外部からの文脈なしには、いくつかの単語を翻訳できない文書レベルの翻訳に焦点を当てる。
論文 参考訳(メタデータ) (2024-10-18T11:52:10Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Lost in the Source Language: How Large Language Models Evaluate the Quality of Machine Translation [64.5862977630713]
本研究では,機械翻訳評価タスクにおいて,Large Language Models (LLM) がソースデータと参照データをどのように活用するかを検討する。
参照情報が評価精度を大幅に向上させるのに対して,意外なことに,ソース情報は時として非生産的である。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Improving Translation Faithfulness of Large Language Models via
Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。
SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。
OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文 参考訳(メタデータ) (2023-08-24T09:32:29Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。