論文の概要: Top in Chinese Data Processing: English Code Models
- arxiv url: http://arxiv.org/abs/2401.10286v2
- Date: Thu, 25 Jan 2024 07:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:58:32.602077
- Title: Top in Chinese Data Processing: English Code Models
- Title(参考訳): 中国のデータ処理でトップ - 英語コードモデル
- Authors: Linghan Zheng, Hui Liu, Xiaojun Lin, Jiayuan Dong, Yue Sheng, Gang
Shi, Zhiwei Liu, Hongwei Chen
- Abstract要約: コードベースのLarge Language Models (LLMs) は、非コーディング中国語タスクのタスクと密にマッチしたデータに基づいて訓練されたモデルよりも大幅に優れていることを示す。
中国語の幻覚に対する感度が高いタスクでは、中国語の言語的特徴の少ないモデルの方が優れたパフォーマンスが得られる。
- 参考スコア(独自算出の注目度): 17.117337927315315
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: While the alignment between tasks and training corpora is a fundamental
consensus in the application of language models, our series of experiments and
the metrics we designed reveal that code-based Large Language Models (LLMs)
significantly outperform models trained on data that is closely matched to the
tasks in non-coding Chinese tasks. Moreover, in tasks high sensitivity to
Chinese hallucinations, models exhibiting fewer linguistic features of the
Chinese language achieve better performance. Our experimental results can be
easily replicated in Chinese data processing tasks, such as preparing data for
Retrieval-Augmented Generation (RAG), by simply replacing the base model with a
code-based model. Additionally, our research offers a distinct perspective for
discussion on the philosophical "Chinese Room" thought experiment.
- Abstract(参考訳): タスクとトレーニングコーパスのアラインメントは言語モデルの応用において基本的なコンセンサスですが、コードベースの大規模言語モデル(llm)が、中国の非コーディングタスクのタスクと密接にマッチするデータに基づいてトレーニングされたモデルを大幅に上回っています。
さらに、中国語の幻覚に対する感度が高いタスクでは、中国語の言語的特徴の少ないモデルの方がパフォーマンスが向上する。
実験結果は,ベースモデルをコードベースモデルに置き換えることで,検索型生成(rag)のためのデータ準備など,中国のデータ処理タスクで容易に再現できる。
さらに,本研究は,哲学的「中国室」思考実験について,明確な視点で論じる。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散に基づくモデルは、様々なレイアウトで高品質な画像を生成する大きな可能性を示している。
本稿では,高品質なマルチモーダルトレーニング例を生成する新しいフレームワークであるAuto Cherry-Pickerを紹介する。
特に,合成レイアウトと画像スコア(CLIS, Composite Layout and Image Score)を新たに提案し,生成した画像の公平な評価を行う。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks [30.54635848057259]
本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。
対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。
本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
論文 参考訳(メタデータ) (2024-05-16T16:56:54Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。
GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文 参考訳(メタデータ) (2023-04-16T18:37:39Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - Code to Comment Translation: A Comparative Study on Model Effectiveness
& Errors [19.653423881863834]
機械翻訳モデルは、コードスニペットを関連する自然言語記述に"翻訳"するために使用される。
このようなモデルのほとんどの評価は、自動参照ベースメトリクスを用いて行われる。
本稿では,スムーズなBLEU-4, METEOR, ROUGE-L機械翻訳指標に基づくソースコード要約モデルを提案する。
実験によって得られた誤り分類において,メトリックベース性能とモデル予測誤差の関係について新たな知見が得られた。
論文 参考訳(メタデータ) (2021-06-15T20:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。