論文の概要: Typologically-Informed Candidate Reranking for LLM-based Translation into Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2602.01162v1
- Date: Sun, 01 Feb 2026 11:22:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.636684
- Title: Typologically-Informed Candidate Reranking for LLM-based Translation into Low-Resource Languages
- Title(参考訳): LLMをベースとした低リソース言語への翻訳のためのタイポロジー的インフォームド・カンディネート
- Authors: Nipuna Abeykoon, Ashen Weerathunga, Pubudu Wijesinghe, Parameswari Krishnamurthy,
- Abstract要約: 高資源言語で主に訓練された大規模な言語モデルは、支配的な類型パターンに対する体系的なバイアスを示す。
パラレルトレーニングデータやモデル再訓練を使わずに,言語型学を活用して翻訳品質を向上させるフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.0732935873226022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models trained predominantly on high-resource languages exhibit systematic biases toward dominant typological patterns, leading to structural non-conformance when translating into typologically divergent low-resource languages. We present a framework that leverages linguistic typology to improve translation quality without parallel training data or model retraining. The framework consists of two components: the Universal Metalinguistic Framework (UMF), which represents languages as structured profiles across 16 typological dimensions with divergence-weighted scoring, and the Computational Engine, which operates through linguistic disambiguation during generation and typological compliance scoring during selection. Evaluation across nine language pairs demonstrates intervention rates strongly correlating with typological distance from English. In experiments on 341 English sentences each having different morphological and syntactic phenomena, the framework shows an intervention precision of 48.16% for conservatively treated languages, 28.15% for morphologically dense languages, and 86.26% for structurally profiled languages. The framework requires no parallel training data and operates with any LLM capable of producing multiple candidate outputs, enabling practical deployment for under-resourced languages.
- Abstract(参考訳): 高リソース言語で主に訓練された大きな言語モデルは、支配的な型的パターンに対する体系的なバイアスを示し、型学的に異なる低リソース言語に翻訳する際に構造的非適合をもたらす。
パラレルトレーニングデータやモデル再訓練を使わずに,言語型学を活用して翻訳品質を向上させるフレームワークを提案する。
このフレームワークは2つのコンポーネントで構成されており、Universal Metalinguistic Framework (UMF) は言語を、発散重みのある16の類型的次元にわたる構造化されたプロファイルとして表現し、Computational Engine は生成時の言語的曖昧さと選択時の類型的コンプライアンススコアによって機能する。
9つの言語対に対する評価は、英語との類型的距離に強く関連する介入率を示す。
異なる形態的および構文的な現象を持つ341の英語文の実験において、この枠組みは、保守的に処理された言語に対して48.16%、形態的に密度の高い言語に対して28.15%、構造的にプロファイルされた言語に対して86.26%の介入精度を示す。
このフレームワークは並列トレーニングデータを必要とせず、複数の候補出力を生成するLLMで動作し、アンダーリソース言語に実用的なデプロイを可能にする。
関連論文リスト
- Towards Typologically Aware Rescoring to Mitigate Unfaithfulness in Lower-Resource Languages [9.426642998924724]
多言語大言語モデルは、資源制約言語で非忠実な出力を生成する。
このような設定における不誠実さを軽減するため、我々は計算学的に軽量な補助モデルを用いて、より大きなアーキテクチャの出力を再評価する。
我々は,700MB未満のデータに対して,スクラッチから事前訓練した単言語4層BERTモデルにより,忠実な要約を88.33%の平均精度で識別可能であることを示した。
論文 参考訳(メタデータ) (2025-02-24T21:22:19Z) - A Principled Framework for Evaluating on Typologically Diverse Languages [11.512231869456512]
本稿では,多種多様言語を選択するための言語サンプリングフレームワークを提案する。
我々の体系的手法は、NLPの従来の方法よりも、型論的に多様な言語選択を一貫して取り出すことがわかった。
論文 参考訳(メタデータ) (2024-07-06T09:31:02Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - An Empirical Study of Factors Affecting Language-Independent Models [11.976665726887733]
言語に依存しないモデルは、モノリンガルデータを用いて訓練されたモデルに匹敵するか、さらに優れることを示す。
我々は,多くの異なる言語で言語に依存しないモデルを実験し,それらが類型的に類似した言語に適していることを示す。
論文 参考訳(メタデータ) (2019-12-30T22:41:57Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。