論文の概要: Code-Based English Models Surprising Performance on Chinese QA Pair
Extraction Task
- arxiv url: http://arxiv.org/abs/2401.10286v3
- Date: Mon, 11 Mar 2024 01:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 14:42:23.175467
- Title: Code-Based English Models Surprising Performance on Chinese QA Pair
Extraction Task
- Title(参考訳): 中国語QAペア抽出課題におけるコードベース英語モデルの性能評価
- Authors: Linghan Zheng, Hui Liu, Xiaojun Lin, Jiayuan Dong, Yue Sheng, Gang
Shi, Zhiwei Liu, Hongwei Chen
- Abstract要約: コードベースのモデルは推論集約シナリオにおいて、テキストベースのモデルよりも一貫してパフォーマンスが良い。
一定の量の中国語データを含むコードベースのモデルは、パフォーマンスをさらに向上させる。
特定の中国語タスクにおけるコードベース英語モデルの能力は、哲学的な「中国語室」思考実験において、明確な視点を提供する。
- 参考スコア(独自算出の注目度): 17.117337927315315
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In previous studies, code-based models have consistently outperformed
text-based models in reasoning-intensive scenarios. When generating our
knowledge base for Retrieval-Augmented Generation (RAG), we observed that
code-based models also perform exceptionally well in Chinese QA Pair Extraction
task. Further, our experiments and the metrics we designed discovered that
code-based models containing a certain amount of Chinese data achieve even
better performance. Additionally, the capabilities of code-based English models
in specified Chinese tasks offer a distinct perspective for discussion on the
philosophical "Chinese Room" thought experiment.
- Abstract(参考訳): これまでの研究では、コードベースのモデルは推論集約的なシナリオにおいて、一貫してテキストベースのモデルよりも優れていた。
検索-拡張生成(RAG)の知識ベースを生成すると、コードベースモデルも中国語のQAペア抽出タスクにおいて非常によく機能することがわかった。
さらに、当社が設計した実験とメトリクスによって、一定の量の中国データを含むコードベースモデルが、さらに優れたパフォーマンスを達成できることが分かりました。
さらに、特定の中国語タスクにおけるコードベースの英語モデルの能力は、哲学的な「中国語室」思考実験において、明確な視点を提供する。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language [41.40908753726324]
拡散に基づくモデルは、様々なレイアウトで高品質な画像を生成する大きな可能性を示している。
本稿では,高品質なマルチモーダルトレーニング例を生成する新しいフレームワークであるAuto Cherry-Pickerを紹介する。
特に,合成レイアウトと画像スコア(CLIS, Composite Layout and Image Score)を新たに提案し,生成した画像の公平な評価を行う。
論文 参考訳(メタデータ) (2024-06-28T17:53:18Z) - A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks [30.54635848057259]
本稿では、よく知られた高性能な大規模言語モデル(LLM)の包括的な評価を行う。
対話生成とテキスト要約を含む英語と中国語のデータセットを選択する。
本研究は, 詳細な分析を伴って, 両自動検査の結果を報告する。
論文 参考訳(メタデータ) (2024-05-16T16:56:54Z) - CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model [58.127534002232096]
本稿では,オープンソースの事前学習型LLMであるCodeFuse-13Bを紹介する。
英語と中国語の両方のプロンプトによるコード関連のタスク用に特別に設計されている。
CodeFuseは、高品質な事前トレーニングデータセットを利用することで、その効果を達成する。
論文 参考訳(メタデータ) (2023-10-10T02:38:44Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。
GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文 参考訳(メタデータ) (2023-04-16T18:37:39Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z) - Code to Comment Translation: A Comparative Study on Model Effectiveness
& Errors [19.653423881863834]
機械翻訳モデルは、コードスニペットを関連する自然言語記述に"翻訳"するために使用される。
このようなモデルのほとんどの評価は、自動参照ベースメトリクスを用いて行われる。
本稿では,スムーズなBLEU-4, METEOR, ROUGE-L機械翻訳指標に基づくソースコード要約モデルを提案する。
実験によって得られた誤り分類において,メトリックベース性能とモデル予測誤差の関係について新たな知見が得られた。
論文 参考訳(メタデータ) (2021-06-15T20:13:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。