Fugu-MT 論文翻訳(概要): CLEVA: Chinese Language Models EVAluation Platform

論文の概要: CLEVA: Chinese Language Models EVAluation Platform

arxiv url: http://arxiv.org/abs/2308.04813v1
Date: Wed, 9 Aug 2023 09:11:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-10 14:21:18.703938
Title: CLEVA: Chinese Language Models EVAluation Platform
Title（参考訳）: CLEVA: 中国語モデルによる評価プラットフォーム
Authors: Yanyang Li, Jianqiao Zhao, Duo Zheng, Zi-Yuan Hu, Zhi Chen, Xiaohui Su, Yongfeng Huang, Shijia Huang, Dahua Lin, Michael R. Lyu, Liwei Wang
Abstract要約: CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
参考スコア（独自算出の注目度）: 90.34151277327507
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the continuous emergence of Chinese Large Language Models (LLMs), how to evaluate a model's capabilities has become an increasingly significant issue. The absence of a comprehensive Chinese benchmark that thoroughly assesses a model's performance, the unstandardized and incomparable prompting procedure, and the prevalent risk of contamination pose major challenges in the current evaluation of Chinese LLMs. We present CLEVA, a user-friendly platform crafted to holistically evaluate Chinese LLMs. Our platform employs a standardized workflow to assess LLMs' performance across various dimensions, regularly updating a competitive leaderboard. To alleviate contamination, CLEVA curates a significant proportion of new data and develops a sampling strategy that guarantees a unique subset for each leaderboard round. Empowered by an easy-to-use interface that requires just a few mouse clicks and a model API, users can conduct a thorough evaluation with minimal coding. Large-scale experiments featuring 23 influential Chinese LLMs have validated CLEVA's efficacy.
Abstract（参考訳）: 中国の大規模言語モデル(LLM)の継続的な出現に伴い、モデルの能力を評価する方法がますます大きな問題となっている。モデルの性能を徹底的に評価する包括的な中国のベンチマークの欠如、標準化されず互換性のないプロンプト手順、そして汚染のリスクが現在の中国のLLMの評価において大きな課題となっている。 CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。当社のプラットフォームでは,LLMのパフォーマンスをさまざまな面で評価するために,標準化されたワークフローを採用しています。汚染を軽減するため、clevaは新しいデータのかなりの割合をキュレーションし、リーダーボードラウンドごとにユニークなサブセットを保証するサンプリング戦略を開発する。マウスクリック数回とモデルAPIを必要とする使いやすいインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。 23個の中国のLLMを含む大規模な実験は、CLEVAの有効性を実証している。

関連論文リスト

Reinforcement World Model Learning for LLM-based Agents [60.65003139516272]
強化世界モデル学習(Reinforcement World Model Learning, RWML)は、LDMをベースとしたエージェントのための行動教師付き世界モデルを学ぶ自己条件付き手法である。本手法は, モデルが生成したシミュレーションされた次の状態と, 環境から観測された次の状態とを一致させる。本手法をALFWorldと2ドルのBenchで評価し,完全に自己管理されているにもかかわらず,ベースモデルに対する大幅な利得を観測した。
論文参考訳（メタデータ） (2026-02-05T16:30:08Z)
Thunder-LLM: Efficiently Adapting LLMs to Korean with Minimal Resources [5.341994281991984]
本稿では, 既存の英語 LLM を低予算シナリオで韓国語に適応させる手法を提案する。韓国のデータセットを収集し、データを前処理し、モデルをトレーニングし、下流のベンチマークを作成し、評価を行う。我々の新しいバイリンガルモデルであるThunder-LLMとThunder-LLM-Insは、最小限のデータと計算資源を生かしながら、最先端モデルと比較して韓国の優れた性能を実現する。
論文参考訳（メタデータ） (2025-06-18T17:33:51Z)
CEC-Zero: Chinese Error Correction Solution Based on LLM [0.0]
大規模言語モデル(LLM)の最近の進歩は、例外的な中国語テキスト処理能力を示している。本稿では,LLMを自己修正できる新しい強化学習フレームワークであるCEC-Zeroを提案する。実験により、RL強化LLMは産業で実現可能な精度と優れたクロスドメイン一般化を実現することが示された。
論文参考訳（メタデータ） (2025-05-14T02:35:47Z)
Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks [0.0]
本研究では,プロプライエタリな大規模言語モデル (LLM) に匹敵する精度を実現するため,小型言語モデル (SLM) アンサンブルの可能性を検討する。本稿では,複数のSLMから判断を合成するためにベイズ推定を適用した新しい手法として,EBI(Ensemble Bayesian Inference)を提案する。
論文参考訳（メタデータ） (2025-04-24T15:55:10Z)
Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM [47.64519989743434]
Steel-LLMは、高品質のオープンソースモデルを作成することを目的として、スクラッチから開発された中国語中心の言語モデルである。本稿では、データ収集、モデル設計、トレーニング方法論、その過程で遭遇した課題など、プロジェクトの主要なコントリビューションについて包括的に要約する。
論文参考訳（メタデータ） (2025-02-10T16:31:37Z)
Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文参考訳（メタデータ） (2024-11-26T00:44:37Z)
LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文参考訳（メタデータ） (2024-10-03T17:36:33Z)
LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。 LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文参考訳（メタデータ） (2024-07-17T17:51:53Z)
Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文参考訳（メタデータ） (2024-05-17T08:40:51Z)
Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文参考訳（メタデータ） (2024-05-07T21:58:45Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria [49.500322937449326]
MLLM(Multimodal large language model)は、AIアプリケーションの範囲を広げている。既存のMLLMの自動評価手法は主にユーザエクスペリエンスを考慮せずにクエリを評価する場合に限られている。本稿では,MLLM を判断基準として評価する MLLM の新しい評価パラダイムを提案する。
論文参考訳（メタデータ） (2023-11-23T12:04:25Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。 MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。 MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文参考訳（メタデータ） (2023-07-12T16:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。