論文の概要: LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods
- arxiv url: http://arxiv.org/abs/2412.05579v2
- Date: Tue, 10 Dec 2024 05:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 10:56:12.515833
- Title: LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods
- Title(参考訳): LLMs-as-Judges: LLMに基づく評価手法に関する総合的な調査
- Authors: Haitao Li, Qian Dong, Junjie Chen, Huixue Su, Yujia Zhou, Qingyao Ai, Ziyi Ye, Yiqun Liu,
- Abstract要約: 「LLMs-as-judges」は自然言語応答に基づく評価器である。
本稿では,5つの重要な視点から'LLMs-as-judges'パラダイムを包括的に調査する。
我々は,研究と実践の両方において,'LLMs-as-judges'の開発と適用に関する洞察を提供することを目的としている。
- 参考スコア(独自算出の注目度): 21.601196380989542
- License:
- Abstract: The rapid advancement of Large Language Models (LLMs) has driven their expanding application across various fields. One of the most promising applications is their role as evaluators based on natural language responses, referred to as ''LLMs-as-judges''. This framework has attracted growing attention from both academia and industry due to their excellent effectiveness, ability to generalize across tasks, and interpretability in the form of natural language. This paper presents a comprehensive survey of the LLMs-as-judges paradigm from five key perspectives: Functionality, Methodology, Applications, Meta-evaluation, and Limitations. We begin by providing a systematic definition of LLMs-as-Judges and introduce their functionality (Why use LLM judges?). Then we address methodology to construct an evaluation system with LLMs (How to use LLM judges?). Additionally, we investigate the potential domains for their application (Where to use LLM judges?) and discuss methods for evaluating them in various contexts (How to evaluate LLM judges?). Finally, we provide a detailed analysis of the limitations of LLM judges and discuss potential future directions. Through a structured and comprehensive analysis, we aim aims to provide insights on the development and application of LLMs-as-judges in both research and practice. We will continue to maintain the relevant resource list at https://github.com/CSHaitao/Awesome-LLMs-as-Judges.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩は、様々な分野にまたがって応用を拡大させてきた。
最も有望な応用の1つは、''LLMs-as-judges'と呼ばれる自然言語応答に基づく評価者としての役割である。
この枠組みは、優れた効果、タスクを一般化する能力、自然言語の形での解釈可能性によって、学術と産業の両方から注目を集めている。
本稿では, 機能, 方法論, 応用, メタ評価, 限界という5つの重要な視点から, LLMs-as-judgesパラダイムを包括的に調査する。
まず LLM-as-Judges の体系的な定義を提供し、その機能を紹介します(なぜ LLM の審査員を使うのか?
次に,LLMを用いた評価システムを構築するための方法論について検討する(LLMの判断をどう使うか?)。
さらに, LLM審査員の活用法について検討し, 様々な文脈で評価する方法について検討する(LLM審査員の活用法は?)。
最後に, LLM審査員の限界を詳細に分析し, 今後の方向性について考察する。
構造化された包括的分析を通じて、研究と実践の両方においてLLM-as-judgesの開発と応用に関する洞察を提供することを目的としている。
関連リソースリストはhttps://github.com/CSHaitao/Awesome-LLMs-as-Judges.comで継続します。
関連論文リスト
- Scoring with Large Language Models: A Study on Measuring Empathy of Responses in Dialogues [3.2162648244439684]
本研究では,対話における応答の共感を測り,評価する上で,大規模言語モデルがいかに効果的かを調べるための枠組みを開発する。
我々の戦略は、最新かつ微調整されたLLMの性能を明示的で説明可能な特徴で近似することである。
以上の結果から,組込みのみを用いる場合,ジェネリックLLMに近い性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-28T20:37:57Z) - From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [32.55871325700294]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。
大規模言語モデル(LLM)の最近の進歩は"LLM-as-a-judge"パラダイムを刺激している。
論文 参考訳(メタデータ) (2024-11-25T17:28:44Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - A Comprehensive Evaluation of Large Language Models on Legal Judgment
Prediction [60.70089334782383]
大規模言語モデル(LLM)は、ドメイン固有のアプリケーションに大きな可能性を示している。
GPT-4の法律評価をめぐる近年の論争は、現実の法的タスクにおけるパフォーマンスに関する疑問を提起している。
我々は,LLMに基づく実践的ベースラインソリューションを設計し,法的判断予測の課題を検証した。
論文 参考訳(メタデータ) (2023-10-18T07:38:04Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。