論文の概要: Facilitating large language model Russian adaptation with Learned Embedding Propagation
- arxiv url: http://arxiv.org/abs/2412.21140v1
- Date: Mon, 30 Dec 2024 18:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:07:24.469113
- Title: Facilitating large language model Russian adaptation with Learned Embedding Propagation
- Title(参考訳): 学習埋め込み伝播を用いた大規模言語モデルロシア語適応のファシリテート
- Authors: Mikhail Tikhomirov, Daniil Chernyshev,
- Abstract要約: オープンソースの命令調整型大言語モデル(LLM)は、GPT-4のような最先端の言語モデルと同じテキスト生成品質を持つ。
LLMの著者は、結果の複製に必要なトレーニングデータを公開していないため、成果をモデル排他的にしている。
本稿では,言語適応パイプラインの限界に対処し,コストを削減するために,Learned Embedding propagation (LEP)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Rapid advancements of large language model (LLM) technologies led to the introduction of powerful open-source instruction-tuned LLMs that have the same text generation quality as the state-of-the-art counterparts such as GPT-4. While the emergence of such models accelerates the adoption of LLM technologies in sensitive-information environments the authors of such models don not disclose the training data necessary for replication of the results thus making the achievements model-exclusive. Since those open-source models are also multilingual this in turn reduces the benefits of training a language specific LLMs as improved inference computation efficiency becomes the only guaranteed advantage of such costly procedure. More cost-efficient options such as vocabulary extension and subsequent continued pre-training are also inhibited by the lack of access to high-quality instruction-tuning data since it is the major factor behind the resulting LLM task-solving capabilities. To address the limitations and cut the costs of the language adaptation pipeline we propose Learned Embedding Propagation (LEP). Unlike existing approaches our method has lower training data size requirements due to minimal impact on existing LLM knowledge which we reinforce using novel ad-hoc embedding propagation procedure that allows to skip the instruction-tuning step and instead implant the new language knowledge directly into any existing instruct-tuned variant. We evaluated four Russian vocabulary adaptations for LLaMa-3-8B and Mistral-7B, showing that LEP is competitive with traditional instruction-tuning methods, achieving performance comparable to OpenChat 3.5 and LLaMa-3-8B-Instruct, with further improvements via self-calibration and continued tuning enhancing task-solving capabilities.
- Abstract(参考訳): 大規模言語モデル (LLM) 技術の急速な進歩により、GPT-4のような最先端の言語と同等のテキスト生成品質を持つ強力なオープンソース命令チューニング LLM が導入された。
このようなモデルが出現すると、機密情報環境におけるLCM技術の採用が加速する一方、そのようなモデルの作成者は、結果の複製に必要なトレーニングデータを開示せず、その成果がモデル排他的になる。
これらのオープンソースモデルも多言語であるので、推論計算効率の改善がそのようなコストのかかる手続きの唯一の利点となるため、言語固有のLLMを訓練するメリットを減らすことができる。
語彙拡張やその後の継続事前訓練といったよりコスト効率の高いオプションは、LLMタスク解決能力の主要な要因である高品質な命令チューニングデータへのアクセスが欠如していることによっても抑制される。
言語適応パイプラインの制限に対処し、コストを削減するために、Learned Embedding Propagation (LEP)を提案する。
既存手法と異なり,本手法では,既存のLLM知識への最小限の影響により,命令調整手順を省略し,既存のインストラクタに新しい言語知識を直接埋め込むことが可能な,新しいアドホック埋め込みプログレッションプロシージャプロシージャが強化されているため,トレーニングデータサイズが小さくなる。
我々は、LLaMa-3-8BとMistral-7Bの4つのロシア語語彙適応を評価し、LEPが従来の命令調整手法と競合し、OpenChat 3.5とLLaMa-3-8B-Instructに匹敵する性能を示し、自己校正によるさらなる改善とタスク解決機能の調整を継続した。
関連論文リスト
- TasTe: Teaching Large Language Models to Translate through Self-Reflection [82.83958470745381]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。
本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。
WMT22ベンチマークにおける4つの言語方向の評価結果から,既存の手法と比較して,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-12T17:21:21Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Language Model Inference [38.1823640848362]
State-of-the-the-art Generative Large Language Model (LLM) は、英語中心のトークン化器、語彙、事前学習データに依存している。
近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
論文 参考訳(メタデータ) (2024-02-16T14:15:15Z) - Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。
本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。
本稿では,LLMの連続学習に関する最近の研究について述べる。
論文 参考訳(メタデータ) (2024-02-02T12:34:09Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Improving Translation Faithfulness of Large Language Models via
Augmenting Instructions [89.76691340615848]
SWIE(Segment-Weighted Instruction Embedding)と命令追従データセットOVERMISSを提案する。
SWIEは、以下の入力および応答表現に大域的な命令表現を追加することにより、モデル命令理解を改善する。
OVERMISSは、オーバー翻訳とミス翻訳の結果を正しい翻訳と比較することにより、モデルの忠実度を向上させる。
論文 参考訳(メタデータ) (2023-08-24T09:32:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。