論文の概要: SLoW: Select Low-frequency Words! Automatic Dictionary Selection for Translation on Large Language Models
- arxiv url: http://arxiv.org/abs/2507.18902v1
- Date: Fri, 25 Jul 2025 02:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.801436
- Title: SLoW: Select Low-frequency Words! Automatic Dictionary Selection for Translation on Large Language Models
- Title(参考訳): SLoW: Select Low- frequency Words! 大規模言語モデルの翻訳のための自動辞書選択
- Authors: Hongyuan Lu, Zixuan Li, Zefan Zhang, Wai Lam,
- Abstract要約: 本稿ではtextbfAutomatic textbfDictionary textbfSelection (textbfADS) と呼ばれる新しいタスクを提案する。
タスクの目標は、翻訳を強化するために使用する辞書を自動的に選択することである。
- 参考スコア(独自算出の注目度): 47.604473591750605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are more than 7,000 languages around the world, and current Large Language Models (LLMs) only support hundreds of languages. Dictionary-based prompting methods can enhance translation on them, but most methods use all the available dictionaries, which could be expensive. Instead, it will be flexible to have a trade-off between token consumption and translation performance. This paper proposes a novel task called \textbf{A}utomatic \textbf{D}ictionary \textbf{S}election (\textbf{ADS}). The goal of the task is to automatically select which dictionary to use to enhance translation. We propose a novel and effective method which we call \textbf{S}elect \textbf{Lo}w-frequency \textbf{W}ords! (\textbf{SLoW}) which selects those dictionaries that have a lower frequency. Our methods have unique advantages. First, there is no need for access to the training data for frequency estimation (which is usually unavailable). Second, it inherits the advantage of dictionary-based methods, where no additional tuning is required on LLMs. Experimental results on 100 languages from FLORES indicate that SLoW surpasses strong baselines, and it can obviously save token usage, with many languages even surpassing the translation performance of the full dictionary baseline.\footnote{A shocking fact is that there is no need to use the actual training data (often unobtainable) for frequency estimation, and an estimation frequency obtained using public resources is still apparently effective in improving translation with ChatGPT and Llama, and DeepSeek.}\footnote{Code and data available upon publication.}
- Abstract(参考訳): 世界中に7000以上の言語があり、現在のLarge Language Models (LLM) は数百言語しかサポートしていない。
辞書ベースのプロンプト法は翻訳を促進できるが、ほとんどの方法は利用可能な辞書を全て使用しており、これは高価である可能性がある。
代わりに、トークン消費と変換パフォーマンスの間にトレードオフを持つことはフレキシブルです。
本稿では,新しいタスクである \textbf{A}utomatic \textbf{D}ictionary \textbf{S}election (\textbf{ADS})を提案する。
タスクの目標は、翻訳を強化するために使用する辞書を自動的に選択することである。
我々は、新しい、効果的な方法を提案し、それを \textbf{S}elect \textbf{Lo}w- frequency \textbf{W}ords!
(\textbf{SLoW}) 低い周波数の辞書を選択する。
私たちの方法には独特な利点があります。
まず、周波数推定のためのトレーニングデータにアクセスする必要がない(通常は利用できない)。
第二に、LLMに追加のチューニングを必要としない辞書ベースの手法の利点を継承する。
FLORESによる100言語の実験結果によると、SLoWは強力なベースラインを超えており、多くの言語が完全な辞書ベースラインの翻訳性能を超えているため、トークンの使用を節約できる。
衝撃的な事実として、実際のトレーニングデータ(多くの場合、観測不可能な)を周波数推定に使用する必要はなく、公開リソースを用いて得られた推定周波数は、ChatGPTやLlama、DeepSeekによる翻訳を改善するのに依然として有効である。
http://www.youthnote{Code and data available on publication.com。
※
関連論文リスト
- Dictionaries to the Rescue: Cross-Lingual Vocabulary Transfer for Low-Resource Languages Using Bilingual Dictionaries [22.562544826766917]
言語間の語彙移動は、事前訓練された言語モデルを新しい言語に適応させる上で有望な役割を担っている。
モノリンガルまたはパラレルコーパスを利用する既存のアプローチは、限られたリソースを持つ言語に適用する場合、課題に直面します。
論文 参考訳(メタデータ) (2025-06-02T10:52:52Z) - Efficient Continual Pre-training of LLMs for Low-resource Languages [45.44796295841526]
大規模コーパスからテキストのサブセットを選択するアルゴリズムを開発した。
さらなる改良を求めて,LLM語彙に含まれるトークンを選択する新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-12-13T16:13:35Z) - Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text? [38.1823640848362]
大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。
LLMは、英語中心のトークン化や語彙に依存するため、非英語のテキストを生成する際にさらに推論ステップを必要とする。
ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
論文 参考訳(メタデータ) (2024-06-17T12:42:34Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource
Languages [1.8787713898828164]
本稿では,辞書の品質,学習データセットのサイズ,言語家族などの影響を詳細に分析する。
複数の低リソーステスト言語で得られた結果は、ベースラインよりもバイリンガル辞書ベースの方法の明確な利点を示している。
論文 参考訳(メタデータ) (2022-06-09T12:03:29Z) - Cross-lingual Transfer for Text Classification with Dictionary-based
Heterogeneous Graph [10.64488240379972]
言語間テキスト分類では,高ソース言語におけるタスク固有トレーニングデータが利用可能であることが求められている。
このようなトレーニングデータの収集は,ラベル付けコストやタスク特性,プライバシの懸念などによって不可能になる可能性がある。
本稿では,ハイソース言語とバイリンガル辞書のタスク非依存語埋め込みのみを利用する代替手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T16:40:40Z) - Active Learning for Massively Parallel Translation of Constrained Text
into Low Resource Languages [26.822210580244885]
我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。
テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,グローバルにテキストのカバレッジを増大させるランダムサンプリングアプローチを比較した。
本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低リソースな言語に翻訳するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-16T14:49:50Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。