論文の概要: Plan Optimization to Bilingual Dictionary Induction for Low-Resource
Language Families
- arxiv url: http://arxiv.org/abs/2010.02396v1
- Date: Mon, 5 Oct 2020 23:43:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:45:22.530509
- Title: Plan Optimization to Bilingual Dictionary Induction for Low-Resource
Language Families
- Title(参考訳): 低リソース言語家庭におけるバイリンガル辞書誘導のための計画最適化
- Authors: Arbi Haza Nasution, Yohei Murakami, Toru Ishida
- Abstract要約: マルコフ決定プロセス(MDP)を利用したバイリンガル辞書作成のための計画最適化の形式化
バイリンガル語彙誘導精度の事前ベータ分布を言語類似性およびトポロジの多意味性でモデル化する。
その結果、総投資計画の推計よりも61.5%のコスト削減、MDP最適計画の推計よりも39.4%のコスト削減が達成された。
- 参考スコア(独自算出の注目度): 1.0312968200748118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating bilingual dictionary is the first crucial step in enriching
low-resource languages. Especially for the closely-related ones, it has been
shown that the constraint-based approach is useful for inducing bilingual
lexicons from two bilingual dictionaries via the pivot language. However, if
there are no available machine-readable dictionaries as input, we need to
consider manual creation by bilingual native speakers. To reach a goal of
comprehensively create multiple bilingual dictionaries, even if we already have
several existing machine-readable bilingual dictionaries, it is still difficult
to determine the execution order of the constraint-based approach to reducing
the total cost. Plan optimization is crucial in composing the order of
bilingual dictionaries creation with the consideration of the methods and their
costs. We formalize the plan optimization for creating bilingual dictionaries
by utilizing Markov Decision Process (MDP) with the goal to get a more accurate
estimation of the most feasible optimal plan with the least total cost before
fully implementing the constraint-based bilingual lexicon induction. We model a
prior beta distribution of bilingual lexicon induction precision with language
similarity and polysemy of the topology as $\alpha$ and $\beta$ parameters. It
is further used to model cost function and state transition probability. We
estimated the cost of all investment plan as a baseline for evaluating the
proposed MDP-based approach with total cost as an evaluation metric. After
utilizing the posterior beta distribution in the first batch of experiments to
construct the prior beta distribution in the second batch of experiments, the
result shows 61.5\% of cost reduction compared to the estimated all investment
plan and 39.4\% of cost reduction compared to the estimated MDP optimal plan.
The MDP-based proposal outperformed the baseline on the total cost.
- Abstract(参考訳): バイリンガル辞書の作成は、低リソース言語を豊かにする最初の重要なステップである。
特に近縁の辞書では、制約に基づくアプローチがピボット言語を介して2つの二言語辞書から二言語レキシコンを誘導するのに役立つことが示されている。
しかし、入力としてマシン可読辞書が存在しない場合、バイリンガルネイティブスピーカーによる手作業による作成を検討する必要がある。
複数のバイリンガル辞書を包括的に作成するという目標を達成するには、既にいくつかのマシン可読なバイリンガル辞書があるとしても、総コストを削減するために制約ベースのアプローチの実行順序を決定することは困難である。
計画最適化は,その方法とコストを考慮したバイリンガル辞書作成の順序を決定する上で重要である。
我々は,マルコフ決定プロセス(MDP)を用いて,二言語辞書作成のための計画最適化を定式化し,制約に基づく二言語辞書誘導を完全実装する前に,最も実現可能な最適計画をより正確に推定する。
我々は,言語の類似性とトポロジーのポリセミーを$\alpha$および$\beta$パラメータとして,バイリンガルレキシコン誘導精度の先行ベータ分布をモデル化する。
さらにコスト関数と状態遷移確率をモデル化するために使われる。
提案手法の評価基準として,全投資計画のコストを推定し,総コストを評価指標とした。
第1バッチの後方ベータ分布を利用して第2バッチの実験で事前ベータ分布を構築した後、推定された全投資計画と比較して61.5倍のコスト削減、推定されたMDP最適計画と比較して39.4倍のコスト削減を示した。
MDPベースの提案は総コストでベースラインを上回った。
関連論文リスト
- Optimizing Low-Resource Language Model Training: Comprehensive Analysis of Multi-Epoch, Multi-Lingual, and Two-Stage Approaches [3.809045695573932]
既存の作業では、制限対象の言語コーパスを効率的に活用するために、マルチエポック、多言語、二段階の訓練が採用されている。
我々は、これらの3つのアプローチを組み合わせて、低リソース言語LLMのトレーニング設定を徹底的に検討する。
対象言語コーパスの量が減少するにつれて、最適トレーニングアプローチは、単言語単段階訓練から、計算予算依存しきい値における多言語二段階訓練へと移行する。
論文 参考訳(メタデータ) (2024-10-16T07:45:56Z) - OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。
我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文 参考訳(メタデータ) (2023-11-15T10:40:45Z) - Active Learning for Multilingual Semantic Parser [65.2180122032335]
多言語意味解析(AL-MSP)のための最初の能動的学習手法を提案する。
AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。
実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2023-01-30T14:19:29Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - A Generalized Constraint Approach to Bilingual Dictionary Induction for
Low-Resource Language Families [1.0312968200748118]
密接に関連する言語に対する制約に基づくバイリンガル語彙帰納法を提案する。
我々はコグネート同義語を多対多の翻訳対を得るために同定する。
論文 参考訳(メタデータ) (2020-10-05T23:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。