論文の概要: Can Linguistically Related Languages Guide LLM Translation in Low-Resource Settings?
- arxiv url: http://arxiv.org/abs/2603.16660v1
- Date: Tue, 17 Mar 2026 15:28:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.371854
- Title: Can Linguistically Related Languages Guide LLM Translation in Low-Resource Settings?
- Title(参考訳): 言語関連言語は低リソース環境におけるLLM翻訳をガイドできるか?
- Authors: Aishwarya Ramasethu, Niyathi Allu, Rohin Garg, Harshwardhan Fartale, Dun Li Chan,
- Abstract要約: 本稿では,言語関連ピボット言語と数ショットのインコンテキストの例を組み合わせたデータ効率のセットアップについて検討する。
我々の分析では、ピボットベースのプロンプトは特定の構成の改善をもたらすが、その利得は控えめで、ほとんどショットの例構築に敏感であることが多い。
本研究は,低リソース翻訳環境における微調整の軽量な代替手段として,推論時間プロンプトとピボットベースの例をいかに,いつ,どのように使用することができるか,という経験的ガイダンスを提供する。
- 参考スコア(独自算出の注目度): 0.1957338076370071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have achieved strong performance across many downstream tasks, yet their effectiveness in extremely low-resource machine translation remains limited. Standard adaptation techniques typically rely on large-scale parallel data or extensive fine-tuning, which are infeasible for the long tail of underrepresented languages. In this work, we investigate a more constrained question: in data-scarce settings, to what extent can linguistically similar pivot languages and few-shot demonstrations provide useful guidance for on-the-fly adaptation in LLMs? We study a data-efficient experimental setup that combines linguistically related pivot languages with few-shot in-context examples, without any parameter updates, and evaluate translation behavior under controlled conditions. Our analysis shows that while pivot-based prompting can yield improvements in certain configurations, particularly in settings where the target language is less well represented in the model's vocabulary, the gains are often modest and sensitive to few shot example construction. For closely related or better represented varieties, we observe diminishing or inconsistent gains. Our findings provide empirical guidance on how and when inference-time prompting and pivot-based examples can be used as a lightweight alternative to fine-tuning in low-resource translation settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの下流タスクで高い性能を達成しているが、非常に低リソースの機械翻訳におけるその効果は限定的である。
標準適応技術は、典型的には大規模な並列データや広範囲な微調整に頼っている。
本研究では,言語的に類似したピボット言語や数発のデモが,LLMのオンザフライ適応にどの程度役立つかという,データスカース設定において,より制約のある問題について検討する。
本研究では,言語関係のピボット言語をパラメータ更新を伴わずに,数ショットのインコンテキストの例と組み合わせ,制御条件下での翻訳行動の評価を行う。
我々の分析によると、ピボットベースのプロンプトは特定の構成、特にモデルの語彙でターゲット言語があまりよく表現されていない設定において改善をもたらすが、そのゲインは、しばしば、わずかにショットの例構築に敏感で敏感である。
より密接な関係またはより優れた表現多様体については、減少または矛盾した利得を観察する。
本研究は,低リソース翻訳環境における微調整の軽量な代替手段として,推論時間プロンプトとピボットベースの例をいかに,いつ,どのように使用することができるか,という経験的ガイダンスを提供する。
関連論文リスト
- BETA-Labeling for Multilingual Dataset Construction in Low-Resource IR [0.06363400715351396]
この研究は、BETA-labelingフレームワークを用いて構築されたBangla IRデータセットを示す。
我々は、他の低リソース言語からのIRデータセットがワンホップ機械翻訳によって効果的に再利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-02-16T06:04:04Z) - Beyond Many-Shot Translation: Scaling In-Context Demonstrations For Low-Resource Machine Translation [49.82863380286994]
In-context Learningは、低リソース機械翻訳にLarge Language Modelsを適用する新しい方法を提供するかもしれない。
本研究では,Long-context モデルを用いた数千例のサンプルに対して,数ショット設定以上の低リソース機械翻訳ICLのスケーリングについて検討する。
JavaneseとSundaneseに関する我々の実験は、追加のコンテキストからのゲインがすばやく飽和し、最大コンテキストウィンドウの近くで分解可能であることを示している。
論文 参考訳(メタデータ) (2026-02-04T17:02:22Z) - Ready to Translate, Not to Represent? Bias and Performance Gaps in Multilingual LLMs Across Language Families and Domains [6.357124887141297]
大規模言語モデル (LLM) は機械翻訳 (MT) を再定義した
LLMは言語家族や専門ドメイン間で不均一なパフォーマンスを示すことが多い。
オープンソースLLMの翻訳品質と公平性を評価するための統合フレームワークおよびデータセットであるTranslation Tanglesを紹介する。
論文 参考訳(メタデータ) (2025-10-09T07:28:30Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。