論文の概要: AlignBench: Benchmarking Chinese Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2311.18743v2
- Date: Sun, 3 Dec 2023 13:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 12:01:05.288130
- Title: AlignBench: Benchmarking Chinese Alignment of Large Language Models
- Title(参考訳): alignbench: 大規模言語モデルの中国アライメントのベンチマーク
- Authors: Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Zhuoer Feng, Bosi
Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, Xiaohan Zhang, Lichao Sun,
Hongning Wang, Jing Zhang, Minlie Huang, Yuxiao Dong, Jie Tang
- Abstract要約: 中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。
GPT-4の評価能力の95%を回復する中国専用評価器LLMであるCritiqueLLMによるAlignBenchの評価を報告する。
- 参考スコア(独自算出の注目度): 100.30878214336444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment has become a critical step for instruction-tuned Large Language
Models (LLMs) to become helpful assistants. However, effective evaluation of
alignment for emerging Chinese LLMs is still significantly lacking, calling for
real-scenario grounded, open-ended, challenging and automatic evaluations
tailored for alignment. To fill in this gap, we introduce AlignBench, a
comprehensive multi-dimensional benchmark for evaluating LLMs' alignment in
Chinese. Equipped with a human-in-the-loop data curation pipeline, our
benchmark employs a rule-calibrated multi-dimensional LLM-as-Judge with
Chain-of-Thought to generate explanations and final ratings as evaluations,
ensuring high reliability and interpretability. Furthermore, we report
AlignBench evaluated by CritiqueLLM, a dedicated Chinese evaluator LLM that
recovers 95% of GPT-4's evaluation ability. We will provide public APIs for
evaluating AlignBench with CritiqueLLM to facilitate the evaluation of LLMs'
Chinese alignment. All evaluation codes, data, and LLM generations are
available at \url{https://github.com/THUDM/AlignBench}.
- Abstract(参考訳): アライメントは、命令調整された大規模言語モデル(LLM)がアシスタントになるための重要なステップとなっている。
しかし、中国におけるLLMのアライメントの効果的な評価は依然として著しく欠落しており、アライメントに適した実シナリオ、オープンエンド、挑戦的、自動評価が求められている。
このギャップを埋めるために、中国語でLLMのアライメントを評価するための総合的な多次元ベンチマークであるAlignBenchを紹介する。
提案するベンチマークでは,マルチ次元LCM-as-JudgeとChain-of-Thoughtを併用し,評価として説明と最終評価を生成し,信頼性と解釈性を確保する。
さらに,GPT-4の評価能力の95%を回復する中国専用評価器LLMであるCritiqueLLMによるAlignBenchの評価を行った。
LLMの中国アライメントの評価を容易にするために、AlignBenchをCristiqueLLMで評価するための公開APIを提供する。
すべての評価コード、データ、LCM世代は \url{https://github.com/THUDM/AlignBench} で利用可能である。
関連論文リスト
- Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation [24.954629877691623]
TICK(Targeted Instruct-evaluation with ChecKlists)は、完全に自動化され、解釈可能な評価プロトコルである。
まず,LLMが高品質な評価チェックリストを確実に生成できることを示す。
次に、STICKは、自己精製とBest-of-N選択により、複数のベンチマークで生成品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:09:08Z) - What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation [48.11754113512047]
この研究には、コード生成ベンチマークデータセットであるDOMAINEVALが含まれており、6つの人気のあるドメインを含んでいる。
私たちのパイプラインは完全に自動化され、コードリポジトリから研究対象のフォーマットへのプッシュボットの構築が可能になります。
本研究のコントリビューションには、コード生成ベンチマークデータセットであるDOMAINEVAL、コードベンチマークを構築するための完全自動化パイプライン、DOMAINEVALのパフォーマンスに基づいたコード生成タスクにおけるLLMの制限の識別が含まれている。
論文 参考訳(メタデータ) (2024-08-23T16:33:58Z) - OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety [37.07970624135514]
OpenEvalは、能力、アライメント、安全性にわたって中国のLLMをベンチマークする評価テストベッドである。
機能評価には,NLPタスク,ディシプリナリーナレッジ,コモンセンス推論,数学的推論という4つのサブディメンジョンから中国語LLMを評価するための12のベンチマークデータセットを含む。
アライメントアライメントアセスメントのために、OpenEvalには、中国のLLMが出力するバイアス、攻撃性、不正性を調べる7つのデータセットが含まれている。
論文 参考訳(メタデータ) (2024-03-18T23:21:37Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。