Fugu-MT 論文翻訳(概要): Peer-review-in-LLMs: Automatic Evaluation Method for LLMs in Open-environment

論文の概要: Peer-review-in-LLMs: Automatic Evaluation Method for LLMs in Open-environment

arxiv url: http://arxiv.org/abs/2402.01830v1
Date: Fri, 2 Feb 2024 18:49:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-07 00:07:21.096144
Title: Peer-review-in-LLMs: Automatic Evaluation Method for LLMs in Open-environment
Title（参考訳）: Peer-Review-in-LLMs:オープン環境におけるLCMの自動評価方法
Authors: Kun-Peng Ning, Shuo Yang, Yu-Yang Liu, Jia-Yu Yao, Zhen-Hui Liu, Yu Wang, Ming Pang, Li Yuan
Abstract要約: ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
参考スコア（独自算出の注目度）: 19.954915320147148
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing large language models (LLMs) evaluation methods typically focus on testing the performance on some closed-environment and domain-specific benchmarks with human annotations. In this paper, we explore a novel unsupervised evaluation direction, utilizing peer-review mechanisms to measure LLMs automatically. In this setting, both open-source and closed-source LLMs lie in the same environment, capable of answering unlabeled questions and evaluating each other, where each LLM's response score is jointly determined by other anonymous ones. To obtain the ability hierarchy among these models, we assign each LLM a learnable capability parameter to adjust the final ranking. We formalize it as a constrained optimization problem, intending to maximize the consistency of each LLM's capabilities and scores. The key assumption behind is that high-level LLM can evaluate others' answers more accurately than low-level ones, while higher-level LLM can also achieve higher response scores. Moreover, we propose three metrics called PEN, CIN, and LIS to evaluate the gap in aligning human rankings. We perform experiments on multiple datasets with these metrics, validating the effectiveness of the proposed approach.
Abstract（参考訳）: 既存の大規模言語モデル (LLMs) の評価手法は一般的に、人間アノテーションを使ったクローズド環境とドメイン固有のベンチマークでの性能をテストすることに重点を置いている。本稿では,LLMを自動計測するピアレビュー機構を利用して,教師なしの新たな評価方向を探索する。この設定では、オープンソースのllmとクローズドソースのllmの両方が同じ環境にあり、ラベルのない質問に答え、互いに評価することができる。これらのモデルの能力階層を得るために,各LLMに学習可能な能力パラメータを割り当て,最終ランク付けを調整する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化する。裏にある重要な前提は、高レベルのLSMは低レベルのLSMよりも他人の回答をより正確に評価でき、高レベルのLMは高い応答スコアを達成できるということである。さらに,PEN,CIN,LISという3つの指標を用いて,ランク付けのギャップを評価する。これらのメトリクスを用いて複数のデータセットで実験を行い,提案手法の有効性を検証する。

関連論文リスト

On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。本研究では,LLMの生成能力と評価能力の関係について検討した。モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文参考訳（メタデータ） (2025-11-25T18:33:24Z)
Leveraging LLMs as Meta-Judges: A Multi-Agent Framework for Evaluating LLM Judgments [6.270885758858811]
大規模言語モデル(LLM)は様々な分野に広く適用されているが、タスクが複雑化するにつれて、その応答を評価することはますます困難になっている。提案する3段階のメタジャッジ選択パイプラインは,1) GPT-4とヒトの専門家による包括的ルーリックの開発,2) 3つの高度なLCMエージェントによる判定,3)低スコア判定の除去のためのしきい値の適用,である。ジャッジベンチデータセットの実験結果は、生判定と比較して約15.55%改善し、単エージェントベースラインよりも約8.37%改善したことを示している。
論文参考訳（メタデータ） (2025-04-23T20:32:12Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
LLM-Powered Preference Elicitation in Combinatorial Assignment [17.367432304040662]
提案手法は,大規模言語モデル(LLM)を人為的プロキシとして活用し,課題における選好選択(PE)を簡素化するものである。本稿では,SOTA ML を用いた嗜好推論方式と併用して動作する LLM プロキシのフレームワークを提案する。コース割当て領域における人間の問合せに対するLLMプロキシの有効性を実験的に評価した。
論文参考訳（メタデータ） (2025-02-14T17:12:20Z)
Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文参考訳（メタデータ） (2024-12-31T17:46:51Z)
Evaluating Consistencies in LLM responses through a Semantic Clustering of Question Answering [1.9214041945441436]
本稿では,Large Language Model (LLM) のセマンティクスを評価するための新しいアプローチを提案する。本稿では,LLM再応答が意味論的に一致しているかどうかを考察し,構文的に異なる文が同じ意味を持つ可能性があることを認識した。 TruthfulQAデータセットを用いてLLM応答を評価することにより、37のカテゴリにわたる意味的一貫性を測定するために、質問毎にNの応答を誘導し、意味的に等価な文をクラスタ化する。
論文参考訳（メタデータ） (2024-10-20T16:21:25Z)
100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances [11.783547185760007]
従来試験されていたLCMの評価結果を用いて,新たなLCMの性能予測に必要な評価回数を削減する。既存の推論データセットの集合であるHELM-LiteとKidsOfReasoningについて実証的研究を行った。
論文参考訳（メタデータ） (2024-09-05T14:19:45Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。