論文の概要: Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better!
- arxiv url: http://arxiv.org/abs/2406.11629v2
- Date: Mon, 24 Jun 2024 16:02:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 00:04:06.757628
- Title: Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better!
- Title(参考訳): 長所のLLM審査員は、多所的なインテクスト学習が役に立つか?
- Authors: Mingyang Song, Mao Zheng, Xuan Luo,
- Abstract要約: 我々は,GPT-4o-as-a-Judgeを単一回答グレーディングで支援するために,マルチショットインコンテキストプロンプトであるReinforcedとUnsupervised ICLの2つのバージョンを提案し,検討した。
設計したプロンプトに基づいて,テキスト内サンプルのスケールアップが評価の一致と品質に与える影響について検討する。
GPT-4oのような長文LLMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 14.906150451947443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging Large Language Models (LLMs) as judges for evaluating the performance of LLMs has recently garnered attention. Nonetheless, this type of approach concurrently introduces potential biases from LLMs, raising concerns about the reliability of the evaluation results. To mitigate this issue, we propose and study two versions of many-shot in-context prompts, Reinforced and Unsupervised ICL, for helping GPT-4o-as-a-Judge in single answer grading. The former uses in-context examples with model-generated rationales, and the latter without. Based on the designed prompts, we investigate the impact of scaling the number of in-context examples on the agreement and quality of the evaluation. Furthermore, we first reveal the symbol bias in GPT-4o-as-a-Judge for pairwise comparison and then propose a simple yet effective approach to mitigate it. Experimental results show that advanced long-context LLMs, such as GPT-4o, perform better in the many-shot regime than in the zero-shot regime. Meanwhile, the experimental results further verify the effectiveness of the symbol bias mitigation approach.
- Abstract(参考訳): LLMのパフォーマンスを評価する審査員として,LLM(Large Language Models)を活用することが近年注目を集めている。
それにもかかわらず、この種のアプローチはLLMからの潜在的なバイアスを同時に導入し、評価結果の信頼性に関する懸念を提起する。
この問題を軽減するため,GPT-4o-as-a-Judgeを単一回答グレーディングで支援するために,マルチショットインコンテキストプロンプトであるReinforcedとUnsupervised ICLの2つのバージョンを提案し,検討する。
前者はモデル生成的理性を持つインコンテキストの例を使用し、後者は無意味である。
設計したプロンプトに基づいて,テキスト内サンプルのスケールアップが評価の一致と品質に与える影響について検討する。
さらに, GPT-4o-as-a-Judge のシンボルバイアスをペア比較で明らかにし, その軽減のための単純かつ効果的なアプローチを提案する。
GPT-4oのような長文LLMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。
一方,実験結果は,シンボルバイアス緩和手法の有効性をさらに検証した。
関連論文リスト
- Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Finding Blind Spots in Evaluator LLMs with Interpretable Checklists [23.381287828102995]
テキスト生成タスクにおける評価器として,Large Language Models (LLMs) の有効性を検討する。
我々は,4つの重要な能力を評価する上で,評価用LLMの習熟度を評価するための新しいフレームワークであるFBIを提案する。
論文 参考訳(メタデータ) (2024-06-19T10:59:48Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。