論文の概要: Fine Grained Evaluation of LLMs-as-Judges
- arxiv url: http://arxiv.org/abs/2601.08919v1
- Date: Tue, 13 Jan 2026 19:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.141312
- Title: Fine Grained Evaluation of LLMs-as-Judges
- Title(参考訳): LLMs-as-Judgesの微粒化評価
- Authors: Sourav Saha, Mandar Mitra,
- Abstract要約: 大規模言語モデル(LLM)は、人間の代用として用いられる。
我々は、LCMの質を、文書レベルだけでなく、これらの判断が正しい理由のためにどれだけの頻度で正しいかを定量化するためにも、裁判官として評価する。
- 参考スコア(独自算出の注目度): 1.5267938856942276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A good deal of recent research has focused on how Large Language Models (LLMs) may be used as `judges' in place of humans to evaluate the quality of the output produced by various text / image processing systems. Within this broader context, a number of studies have investigated the specific question of how effectively LLMs can be used as relevance assessors for the standard ad hoc task in Information Retrieval (IR). We extend these studies by looking at additional questions. Most importantly, we use a Wikipedia based test collection created by the INEX initiative, and prompt LLMs to not only judge whether documents are relevant / non-relevant, but to highlight relevant passages in documents that it regards as useful. The human relevance assessors involved in creating this collection were given analogous instructions, i.e., they were asked to highlight all passages within a document that respond to the information need expressed in a query. This enables us to evaluate the quality of LLMs as judges not only at the document level, but to also quantify how often these `judges' are right for the right reasons. Our findings suggest that LLMs-as-judges work best under human supervision.
- Abstract(参考訳): 近年,Large Language Models (LLMs) が人間の代用として,様々なテキスト/画像処理システムによって生成される出力の質を評価するために,どのように「ジャッジ」として用いられるか,という研究が盛んに行われている。
この広い文脈において、情報検索(IR)における標準アドホックタスクの関連性評価としてLLMを効果的に利用できるかという具体的な問題について、多くの研究がなされている。
追加の質問をすることでこれらの研究を拡張します。
最も重要なことは、INEXイニシアチブによって作成されたウィキペディアベースのテストコレクションを使用して、LCMに対して、文書が関連性または非関連性があるかどうかを判断するだけでなく、それが有用とみなすドキュメントの関連パスを強調するように促しています。
このコレクションの作成に関わる人間関係評価者は、類似した命令を与えられ、すなわち、クエリで表現された情報に応答するドキュメント内のすべてのパスをハイライトするよう求められた。
これにより、LCMの質を、文書レベルでの判断として評価できるだけでなく、これらの「判断」が正しい理由のためにどれだけの頻度で正しいかを定量化できます。
以上の結果から, LLMs-as-judgesがヒトの監督下で最も有効であることが示唆された。
関連論文リスト
- Rankers, Judges, and Assistants: Towards Understanding the Interplay of LLMs in Information Retrieval Evaluation [44.58099275559231]
大規模言語モデル(LLM)は、情報検索(IR)、ランキング、評価、AI支援コンテンツ作成にますます不可欠なものになっている。
本稿では,既存の研究を合成し,LLMに基づくローダとアシスタントがLLMベースの審査員にどのように影響するかを探求する新しい実験設計を提案する。
論文 参考訳(メタデータ) (2025-03-24T19:24:40Z) - From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge [43.278175460454975]
人工知能(AI)と自然言語処理(NLP)において、長い間、評価と評価が重要な課題であった。
大規模言語モデル(LLM)の最近の進歩は"LLM-as-a-judge"パラダイムを刺激している。
LLMは、さまざまな機械学習評価シナリオのスコア付け、ランキング、選択を行うために活用される。
論文 参考訳(メタデータ) (2024-11-25T17:28:44Z) - Evaluating the Evaluator: Measuring LLMs' Adherence to Task Evaluation Instructions [18.93335792080899]
LLMs-as-a-judgeがAI判断と人間の判断の整合性に与える影響について検討する。
我々は、LLMによる最先端評価で一般的に使用される品質基準の分類を集約し、それを審査員として厳密なモデルベンチマークとして提供する。
論文 参考訳(メタデータ) (2024-08-16T14:49:35Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。