Fugu-MT 論文翻訳(概要): Chinese Open Instruction Generalist: A Preliminary Release

論文の概要: Chinese Open Instruction Generalist: A Preliminary Release

arxiv url: http://arxiv.org/abs/2304.07987v1
Date: Mon, 17 Apr 2023 04:45:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-18 16:24:22.881683
Title: Chinese Open Instruction Generalist: A Preliminary Release
Title（参考訳）: 中国のオープンインストラクションジェネラリスト:予備リリース
Authors: Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, Wenhao Huang, Jie Fu
Abstract要約: 本研究では,4つのサブタスクの固有特性に適応した各種手法による中国語指導データセットの作成を目的としたプロジェクトを提案する。我々は、品質を保証するために手作業でチェックされた約200万の中国語のインストラクションチューニングサンプルを収集した。また、既存の英語と中国語の命令コーパスを要約し、新たに構築された中国語の命令コーパスの潜在的な応用について概説する。
参考スコア（独自算出の注目度）: 33.81265396916227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Instruction tuning is widely recognized as a key technique for building generalist language models, which comes to the attention of researchers and the public with the release of InstructGPT \cite{ouyang2022training} and ChatGPT [ https://chat.openai.com/ ]. Despite impressive progress in English-oriented large-scale language models (\textbf{LLMs}), it is still under-explored whether English-based foundation LLMs can perform similarly on multilingual tasks compared to English tasks with well-designed instruction tuning and how we can construct the corpora needed for the tuning. To remedy this gap, we propose the project as an attempt to create a Chinese instruction dataset by various methods adapted to the intrinsic characteristics of 4 sub-tasks. We collect around 200k Chinese instruction tuning samples, which have been manually checked to guarantee high quality. We also summarize the existing English and Chinese instruction corpora and brief some potential applications of the newly constructed Chinese instruction corpora.
Abstract（参考訳）: InstructGPT \cite{ouyang2022training} と ChatGPT [ https://chat.openai.com/ ] のリリースにより、研究者や一般の注目が集まっている。英語指向の大規模言語モデル (\textbf{LLMs}) の顕著な進歩にもかかわらず, 英語をベースとした LLM が, 英語のタスクに対して, 十分に設計された指導チューニングと, チューニングに必要なコーパスを構築することができるかは, いまだ未定である。このギャップを解消するために,4つのサブタスクの特徴に適応した様々な手法による中国語命令データセット作成の試みとして提案する。我々は、品質を保証するために手作業でチェックされた約200万の中国語命令チューニングサンプルを収集した。また,既存の英中国語指導コーパスを要約し,新たに構築した中国語指導コーパスの応用可能性について概説する。

関連論文リスト

TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。 TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文参考訳（メタデータ） (2025-08-07T15:11:17Z)
Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文参考訳（メタデータ） (2024-06-28T08:59:24Z)
X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions [43.90353059292894]
大規模な言語モデルは、英語のような高リソース言語ではうまく反応するが、低リソース言語では苦労する。そこで本研究では,低リソース言語における英語の命令と応答を併用した言語間命令を新たに構築する手法を提案する。
論文参考訳（メタデータ） (2024-05-30T06:45:23Z)
TaCo: Enhancing Cross-Lingual Transfer for Low-Resource Languages in LLMs through Translation-Assisted Chain-of-Thought Processes [9.254047358707014]
本稿では,Alpaca-52K,Dolly-15K,Vicuna Benchmarkを132言語に翻訳する多言語インストラクション・チューニングデータセット(MITS)を紹介する。次に,emphTaCo: Translation-Assisted Cross-Lingualityという新たな手法を提案する。提案手法は,Vicuna Benchmark データセットの低リソース言語に対して 82% のスコアで GPT-4 を圧縮し,命令チューニングと比較して性能を2倍にすることを示す。
論文参考訳（メタデータ） (2023-11-17T06:55:32Z)
TIM: Teaching Large Language Models to Translate with Comparison [78.66926087162672]
本稿では,LLMに翻訳学習を教えるために,サンプルを用いた新しいフレームワークを提案する。我々のアプローチは、正しい翻訳例と間違った翻訳例をモデルに提示し、好みの損失を使ってモデルの学習をガイドすることである。本研究は,翻訳タスクのための微調整LDMの新しい視点を提供し,高品質な翻訳を実現するための有望なソリューションを提供する。
論文参考訳（メタデータ） (2023-07-10T08:15:40Z)
InstructAlign: High-and-Low Resource Language Alignment via Continual Crosslingual Instruction Tuning [66.31509106146605]
命令を調整した大規模言語モデル(LLM)は、様々なタスクや言語で顕著な能力を示している。しかし、利用可能なデータが不足しているため、表現不足の言語に一般化する能力は限られている。 InstructAlignは、LLMが新しい未知の言語を学習済みの高リソース言語と整列できるようにするために、連続的なクロスリンガル命令チューニングを使用する。
論文参考訳（メタデータ） (2023-05-23T02:51:34Z)
ParroT: Translating during Chat using Large Language Models tuned with Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文参考訳（メタデータ） (2023-04-05T13:12:00Z)
Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。 MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文参考訳（メタデータ） (2022-11-03T13:19:32Z)
KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。 KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文参考訳（メタデータ） (2021-05-20T11:40:30Z)
N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。 textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文参考訳（メタデータ） (2020-09-24T11:45:39Z)
CLUE: A Chinese Language Understanding Evaluation Benchmark [41.86950255312653]
最初の大規模中国語理解評価(CLUE)ベンチマークを紹介する。 CLUEは、確立された1文/文ペアの分類タスクにまたがる9つのタスクと、機械読み取りの理解を提供する。我々は、現在最先端の中国のモデルを用いてスコアを報告する。
論文参考訳（メタデータ） (2020-04-13T15:02:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。