論文の概要: Context Volume Drives Performance: Tackling Domain Shift in Extremely Low-Resource Translation via RAG
- arxiv url: http://arxiv.org/abs/2601.09982v1
- Date: Thu, 15 Jan 2026 01:57:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.94527
- Title: Context Volume Drives Performance: Tackling Domain Shift in Extremely Low-Resource Translation via RAG
- Title(参考訳): コンテキストボリューム駆動性能:RAGによる極低リソース翻訳におけるドメインシフトのタックリング
- Authors: David Samuel Setiawan, Raphaël Merx, Jey Han Lau,
- Abstract要約: 我々はこの課題を、新約聖書(NT)を超えるデジタルフットプリントのない東インドネシア原住民言語であるDhaoを用いて定量化する。
NTで微調整された標準NMTモデルは、未確認旧約聖書(OT)に適用した場合、ドメイン内スコア36.17 chrF++から27.11 chrF++に微調整される。
本稿では,大規模言語モデル (LLM) によって改良されたRAG(Retrieval-Augmented Generation) を用いて,微調整NMTモデルで初期ドラフトを生成するハイブリッドフレームワークを提案する。
最終システムは 35.21 chrF++ を達成する
- 参考スコア(独自算出の注目度): 21.883863630332687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural Machine Translation (NMT) models for low-resource languages suffer significant performance degradation under domain shift. We quantify this challenge using Dhao, an indigenous language of Eastern Indonesia with no digital footprint beyond the New Testament (NT). When applied to the unseen Old Testament (OT), a standard NMT model fine-tuned on the NT drops from an in-domain score of 36.17 chrF++ to 27.11 chrF++. To recover this loss, we introduce a hybrid framework where a fine-tuned NMT model generates an initial draft, which is then refined by a Large Language Model (LLM) using Retrieval-Augmented Generation (RAG). The final system achieves 35.21 chrF++ (+8.10 recovery), effectively matching the original in-domain quality. Our analysis reveals that this performance is driven primarily by the number of retrieved examples rather than the choice of retrieval algorithm. Qualitative analysis confirms the LLM acts as a robust "safety net," repairing severe failures in zero-shot domains.
- Abstract(参考訳): 低リソース言語のためのニューラル機械翻訳(NMT)モデルは、ドメインシフト時に大幅に性能低下する。
我々はこの課題を、新約聖書(NT)を超えるデジタルフットプリントを持たないインドネシア東部の先住民言語であるDhaoを使って定量化します。
未確認のOld Testament (OT) に適用すると、NTで微調整された標準NMTモデルは、ドメイン内スコア36.17 chrF++から27.11 chrF++まで微調整される。
この損失を回復するために、細調整されたNMTモデルが初期ドラフトを生成するハイブリッドフレームワークを導入し、その後、Retrieval-Augmented Generation (RAG)を用いてLarge Language Model (LLM)によって洗練される。
最終システムは35.21 chrF++(+8.10リカバリ)を達成し、元のドメイン内品質と効果的に一致する。
分析の結果,この性能は検索アルゴリズムの選択ではなく,検索したサンプルの数によって引き起こされていることが明らかとなった。
定性的分析により、LLMは堅牢な「安全ネット」として機能し、ゼロショット領域の深刻な障害を修復することを確認した。
関連論文リスト
- SemiAdapt and SemiLoRA: Efficient Domain Adaptation for Transformer-based Low-Resource Language Translation with a Case Study on Irish [0.3437656066916039]
微細チューニングは、ニューラルマシン翻訳(NMT)のような特定のタスクのために、大きな言語モデルを調整するために広く使用されている。
モデルパラメータのごく一部をトレーニングすることでギャップを埋める半効率微調整(PEFT)を導入する。
我々は,SemiAdaptがフルドメインファインチューニングより優れていることを示す一方,SemiLoRAはPEFTメソッドをプロペラしてフルモデルファインチューニングより優れていることを示す。
論文 参考訳(メタデータ) (2025-10-21T15:24:15Z) - Large Language Model for Multi-Domain Translation: Benchmarking and Domain CoT Fine-tuning [55.107329995417786]
大規模言語モデル(LLM)は、目覚ましい一般的な理解と生成能力を示している。
我々は、25のドイツ語$Leftrightarrow$ Englishと22の中国語$Leftrightarrow$ Englishテストセットを特徴とするマルチドメイン翻訳のベンチマークを確立する。
本稿では,LLMの内在的マルチドメインインテリジェンスを活用し,翻訳性能を向上させるためのドメインチェーン・オブ・シント(CoT)ファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T16:15:04Z) - Exploiting Language Relatedness in Machine Translation Through Domain
Adaptation Techniques [3.257358540764261]
文のスケール化類似度スコアを,特に5グラムのKenLM言語モデルに基づく関連言語に適用する手法を提案する。
提案手法は, マルチドメインアプローチでは2 BLEU点, NMTでは3 BLEU点, 反復的バックトランスレーションアプローチでは2 BLEU点の増加に成功している。
論文 参考訳(メタデータ) (2023-03-03T09:07:30Z) - Efficient Cluster-Based k-Nearest-Neighbor Machine Translation [65.69742565855395]
k-Nearest-Neighbor Machine Translation (kNN-MT)は、最近、ニューラルネットワーク翻訳(NMT)におけるドメイン適応のための非パラメトリックソリューションとして提案されている。
論文 参考訳(メタデータ) (2022-04-13T05:46:31Z) - Domain Adaptation in Neural Machine Translation using a Qualia-Enriched
FrameNet [64.0476282000118]
ニューラルネットワーク翻訳(NMT)システムのドメイン適応手法であるScyllaを提案する。
Scyllaの2つのバージョンが提示される: 1つはソース文を入力として使用し、もう1つはターゲット文を使用する。
スポーツドメインの50文をブラジルポルトガル語から英語に翻訳する実験において,Scyllaを最先端の商用NMTシステムと比較した。
論文 参考訳(メタデータ) (2022-02-21T15:05:23Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Modeling Coverage for Non-Autoregressive Neural Machine Translation [9.173385214565451]
本稿では,トークンレベルのカバレッジ反復改良機構と文レベルのカバレッジ契約により,カバレッジ情報を直接モデル化するための新しいカバレッジNATを提案する。
WMT14 En-De および WMT16 En-Ro 翻訳タスクの実験結果から,本手法はこれらの誤りを軽減し,ベースラインシステムに対して強い改善が達成できることが示された。
論文 参考訳(メタデータ) (2021-04-24T07:33:23Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。