Fugu-MT 論文翻訳(概要): Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

論文の概要: Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2307.16039v2
Date: Wed, 2 Aug 2023 00:39:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-03 10:21:33.206082
Title: Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback
Title（参考訳）: okapi:人間のフィードバックによる強化学習を伴う多言語における命令調整型大規模言語モデル
Authors: Viet Dac Lai, Chien Van Nguyen, Nghia Trung Ngo, Thuat Nguyen, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen
Abstract要約: 複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
参考スコア（独自算出の注目度）: 61.83548032416181
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: A key technology for the development of large language models (LLMs) involves instruction tuning that helps align the models' responses with human expectations to realize impressive learning abilities. Two major approaches for instruction tuning characterize supervised fine-tuning (SFT) and reinforcement learning from human feedback (RLHF), which are currently applied to produce the best commercial LLMs (e.g., ChatGPT). To improve the accessibility of LLMs for research and development efforts, various instruction-tuned open-source LLMs have also been introduced recently, e.g., Alpaca, Vicuna, to name a few. However, existing open-source LLMs have only been instruction-tuned for English and a few popular languages, thus hindering their impacts and accessibility to many other languages in the world. Among a few very recent work to explore instruction tuning for LLMs in multiple languages, SFT has been used as the only approach to instruction-tune LLMs for multiple languages. This has left a significant gap for fine-tuned LLMs based on RLHF in diverse languages and raised important questions on how RLHF can boost the performance of multilingual instruction tuning. To overcome this issue, we present Okapi, the first system with instruction-tuned LLMs based on RLHF for multiple languages. Okapi introduces instruction and response-ranked data in 26 diverse languages to facilitate the experiments and development of future multilingual LLM research. We also present benchmark datasets to enable the evaluation of generative LLMs in multiple languages. Our experiments demonstrate the advantages of RLHF for multilingual instruction over SFT for different base models and datasets. Our framework and resources are released at https://github.com/nlp-uoregon/Okapi.
Abstract（参考訳）: 大規模言語モデル(LLM)の開発における重要な技術は、モデルの応答と人間の期待を一致させ、印象的な学習能力を実現するための命令チューニングである。教師付き微調整(SFT)と人間からのフィードバックからの強化学習(RLHF)を特徴付ける2つの指導チューニングアプローチは、現在、最高の商用LCM(例えばChatGPT)を製造するために適用されている。研究開発におけるLLMのアクセシビリティ向上のために、AlpacaやVicunaなど、命令で調整されたオープンソースのLLMも最近導入されている。しかし、既存のオープンソース LLM は英語やいくつかのポピュラーな言語に対してのみ教育を受けており、世界中の多くの言語への影響とアクセシビリティを妨げている。複数の言語でのLLMのインストラクションチューニングを探求するごく最近の研究の中で、SFTは複数の言語のためのインストラクションチューニングLLMの唯一のアプローチとして使われている。多様な言語におけるRLHFに基づく微調整 LLM には大きなギャップが残されており、RLHF が多言語命令チューニングの性能を向上できるかという重要な疑問が提起されている。この問題を解決するために,複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。 okapiは26の多様な言語で命令と応答ランクのデータを導入し、将来の多言語llm研究の実験と開発を促進する。また,複数の言語で生成llmを評価するためのベンチマークデータセットも提示する。実験では,異なるベースモデルとデータセットに対して,SFT上の多言語命令に対するRLHFの利点を実証した。私たちのフレームワークとリソースはhttps://github.com/nlp-uoregon/okapiでリリースしています。

関連論文リスト

The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-10T08:28:57Z)
Multilingual Prompts in LLM-Based Recommenders: Performance Across Languages [0.0]
この研究は、非英語のプロンプトがレコメンデーションパフォーマンスに与える影響を探求する。 ML1M、LastFM、Amazon-Beautyの3つの実世界のデータセットの評価は、非英語プロンプトの使用が一般的にパフォーマンスを低下させることを示した。多言語プロンプトによるリトレーニングにより、言語間のバランスの取れたパフォーマンスが向上したが、英語のパフォーマンスはわずかに低下した。
論文参考訳（メタデータ） (2024-09-11T20:31:42Z)
MindMerger: Efficient Boosting LLM Reasoning in non-English Languages [26.334092384176518]
推論能力は大規模言語モデル(LLM)にとって不可欠である我々は,多言語モデルからLLMと外部言語理解機能を融合したMindMergerを提案する。 MindMergerは、特に低リソース言語において、すべてのベースラインを一貫して上回る。
論文参考訳（メタデータ） (2024-05-27T17:41:54Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。 LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文参考訳（メタデータ） (2024-02-26T09:36:05Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文参考訳（メタデータ） (2023-11-15T05:28:07Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
Don't Trust ChatGPT when Your Question is not in English: A Study of Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文参考訳（メタデータ） (2023-05-24T02:05:03Z)
InstructAlign: High-and-Low Resource Language Alignment via Continual Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。 InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文参考訳（メタデータ） (2023-05-23T02:51:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。