論文の概要: "Vorbeşti Româneşte?" A Recipe to Train Powerful Romanian LLMs with English Instructions
- arxiv url: http://arxiv.org/abs/2406.18266v3
- Date: Thu, 17 Oct 2024 18:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 18:13:54.073371
- Title: "Vorbeşti Româneşte?" A Recipe to Train Powerful Romanian LLMs with English Instructions
- Title(参考訳): 『フォルベシュティ・ロマーネテ』? : 英語教育によるルーマニア語LLMの教育の試み
- Authors: Mihai Masala, Denis C. Ilie-Ablachim, Alexandru Dima, Dragos Corlatescu, Miruna Zavelca, Ovio Olaru, Simina Terian, Andrei Terian, Marius Leordeanu, Horia Velicu, Marius Popescu, Mihai Dascalu, Traian Rebedea,
- Abstract要約: ルーマニア語用にカスタマイズされたオープンソースのLLMを収集、翻訳し、評価し、リリースするのはこれが初めてです。
我々は,RoLLMsの有用性と高い性能について,各ボードにまたがって最先端の結果を得ることによって論じる。
- 参考スコア(独自算出の注目度): 40.64721381920061
- License:
- Abstract: In recent years, Large Language Models (LLMs) have achieved almost human-like performance on various tasks. While some LLMs have been trained on multilingual data, most of the training data is in English; hence, their performance in English greatly exceeds other languages. To our knowledge, we are the first to collect and translate a large collection of texts, instructions, and benchmarks and train, evaluate, and release open-source LLMs tailored for Romanian. We evaluate our methods on four different categories, including academic benchmarks, MT-Bench (manually translated), and a professionally built historical, cultural, and social benchmark adapted to Romanian. We argue for the usefulness and high performance of RoLLMs by obtaining state-of-the-art results across the board. We publicly release all resources (i.e., data, training and evaluation code, models) to support and encourage research on Romanian LLMs while concurrently creating a generalizable recipe, adequate for other low or less-resourced languages.
- Abstract(参考訳): 近年、LLM(Large Language Models)は、様々なタスクにおいて、ほぼ人間のようなパフォーマンスを実現している。
一部のLSMは多言語データで訓練されているが、トレーニングデータの大部分は英語であり、英語のパフォーマンスは他の言語よりもはるかに優れている。
我々の知る限り、我々はルーマニア語用にカスタマイズされたオープンソースのLLMを収集し、翻訳し、訓練し、評価し、リリースしました。
我々は学術ベンチマーク、MT-Bench(マニュアル翻訳)、ルーマニア語に適応した専門的な歴史的、文化的、社会的なベンチマークを含む4つのカテゴリで手法を評価した。
我々は,RoLLMsの有用性と高い性能について,各ボードにまたがって最先端の結果を得ることによって論じる。
我々は、すべてのリソース(データ、トレーニング、評価コード、モデル)を公開して、ルーマニアのLCMの研究を支援し、奨励するとともに、他の低あるいは低リソースの言語に適した一般的なレシピを同時に作成します。
関連論文リスト
- Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Multilingual Prompts in LLM-Based Recommenders: Performance Across Languages [0.0]
この研究は、非英語のプロンプトがレコメンデーションパフォーマンスに与える影響を探求する。
ML1M、LastFM、Amazon-Beautyの3つの実世界のデータセットの評価は、非英語プロンプトの使用が一般的にパフォーマンスを低下させることを示した。
多言語プロンプトによるリトレーニングにより、言語間のバランスの取れたパフォーマンスが向上したが、英語のパフォーマンスはわずかに低下した。
論文 参考訳(メタデータ) (2024-09-11T20:31:42Z) - OpenLLM-Ro -- Technical Report on Open-source Romanian LLMs [11.689131290480619]
大規模言語モデル(LLM)は、様々なタスクにおいて、ほぼ人間のようなパフォーマンスを実現している。
本論文では,ルーマニア語を専門とする最初の基礎的・チャット型LLMの学習と評価について述べる。
論文 参考訳(メタデータ) (2024-05-13T12:46:11Z) - Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes [9.254047358707014]
本稿では,Alpaca-52K,Dolly-15K,Vicuna Benchmarkを132言語に翻訳する多言語インストラクション・チューニングデータセット(MITS)を紹介する。
次に,emphTaCo: Translation-Assisted Cross-Lingualityという新たな手法を提案する。
提案手法は,Vicuna Benchmark データセットの低リソース言語に対して 82% のスコアで GPT-4 を圧縮し,命令チューニングと比較して性能を2倍にすることを示す。
論文 参考訳(メタデータ) (2023-11-17T06:55:32Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Resources and Few-shot Learners for In-context Learning in Slavic
Languages [0.22940141855172028]
スラヴ語における文脈内学習(ICL)の訓練と評価に必要なインフラを収集する。
直近のコンテキスト内学習者の集合を評価し,その結果を教師付きベースラインと比較する。
英語で調整されたICLモデルは、非英語の文脈からいくつかのタスクを学習することができる。
論文 参考訳(メタデータ) (2023-04-04T16:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。