論文の概要: Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better!
- arxiv url: http://arxiv.org/abs/2406.11629v3
- Date: Sun, 30 Jun 2024 13:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:11:23.077308
- Title: Can Many-Shot In-Context Learning Help Long-Context LLM Judges? See More, Judge Better!
- Title(参考訳): 長所のLLM審査員は、多所的なインテクスト学習が役に立つか?
- Authors: Mingyang Song, Mao Zheng, Xuan Luo,
- Abstract要約: 我々は,GPT-4o-as-a-Judgeを単一回答グレーディングで支援するために,マルチショットインコンテキストプロンプトの2つのバージョンを提案し,検討する。
設計したプロンプトに基づいて,文脈内サンプルの数が判定結果の一貫性と品質に与える影響について検討する。
GPT-4o-as-a-Judgeの相互比較に隠されたシンボルバイアスを明らかにし、その軽減のための単純かつ効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.906150451947443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging Large Language Models (LLMs) as judges for judging the performance of LLMs has recently garnered attention. However, this type of approach is affected by the potential biases in LLMs, raising concerns about the reliability of the evaluation results. To mitigate this issue, we propose and study two versions of many-shot in-context prompts, which rely on two existing settings of many-shot ICL for helping GPT-4o-as-a-Judge in single answer grading to mitigate the potential biases in LLMs, Reinforced ICL and Unsupervised ICL. Concretely, the former utilizes in-context examples with model-generated rationales, and the latter without. Based on the designed prompts, we investigate the impact of scaling the number of in-context examples on the consistency and quality of the judgment results. Furthermore, we reveal the symbol bias hidden in the pairwise comparison of GPT-4o-as-a-Judge and propose a simple yet effective approach to mitigate it. Experimental results show that advanced long-context LLMs, such as GPT-4o, perform better in the many-shot regime than in the zero-shot regime. Meanwhile, the experimental results further verify the effectiveness of the symbol bias mitigation approach.
- Abstract(参考訳): LLMのパフォーマンスを判断する裁判官として,LLM(Large Language Models)を活用することが近年注目を集めている。
しかし、このようなアプローチはLLMの潜在的なバイアスに影響され、評価結果の信頼性に対する懸念が高まる。
この問題を軽減するため,本論文では,LLM,Reinforced ICL,Unsupervised ICLの潜在的なバイアスを軽減するため,GPT-4o-as-a-Judgeを単一回答グレーディングで支援するために,Multi-shot ICLの既存の2つの設定に依存するマルチショットインコンテキストプロンプトの2つのバージョンを提案し,検討する。
具体的には、前者はモデル生成的理性を持つ文脈内例を使用し、後者は無意味である。
設計したプロンプトに基づいて,文脈内サンプルのスケーリングが判定結果の一貫性と品質に与える影響について検討する。
さらに, GPT-4o-as-a-Judgeの相互比較に隠されたシンボルバイアスを明らかにし, その軽減のための簡易かつ効果的なアプローチを提案する。
GPT-4oのような長文LLMは、ゼロショット方式よりも多ショット方式の方が優れていることを示す実験結果が得られた。
一方,実験結果は,シンボルバイアス緩和手法の有効性をさらに検証した。
関連論文リスト
- Are Large Language Models Strategic Decision Makers? A Study of Performance and Bias in Two-Player Non-Zero-Sum Games [56.70628673595041]
大規模言語モデル(LLM)は、現実世界での利用が増えているが、その戦略能力はほとんど解明されていない。
戦略ゲーム,Stag Hunt と Prisoner Dilemma における LLM の動作について検討し,異なる設定とプロンプト下での性能変動を分析した。
以上の結果から,(1)位置バイアス,(2)支払いバイアス,(3)行動バイアスの少なくとも1つが評価された。
論文 参考訳(メタデータ) (2024-07-05T12:30:02Z) - UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
UBENCHは、大きな言語モデルを評価するためのベンチマークである。
これには、知識、言語、理解、推論能力に関する3,978の質問が含まれている。
また,15個のLPMの信頼性を評価し,GLM4が最も優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
Reinforced と Unsupervised ICL は多発的なシステムでは極めて有効であることがわかった。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs [6.090496490133132]
LLMをロールプレイングシナリオに組み込むことで、バイアスを認識し緩和する能力が向上することがわかった。
本稿では,フィードバックを代替する新たなバイアス緩和手法であるReinforcement Learning from Multi-role Debates as Feedback (RLDF)を提案する。
論文 参考訳(メタデータ) (2024-04-15T22:18:50Z) - Understanding Biases in ChatGPT-based Recommender Systems: Provider Fairness, Temporal Stability, and Recency [9.882829614199453]
本稿では,ChatGPTに基づく推薦システムにおけるバイアスについて考察し,提供者フェアネス(イテム側フェアネス)に着目した。
最初の実験では、トップK推薦の精度と公平性について、7つの異なるプロンプトシナリオを評価した。
フェアネスを「フェアレコメンデーターとしての行動」のようなシステムの役割に組み込むことは、プロンプト内のフェアネスディレクティブよりも効果的であることが証明された。
論文 参考訳(メタデータ) (2024-01-19T08:09:20Z) - Misconfidence-based Demonstration Selection for LLM In-Context Learning [0.0]
大規模言語モデル(LLM)を用いたインコンテキスト学習は、様々なタスクに迅速に適応する上で優れている。
この問題に対する現在のアプローチは、難易度の高い外部監視に依存するか、LLMとの頻繁な相互作用を必要とするかのいずれかである。
In-Context Reflection (ICR) と呼ばれる新しい手法を提案し、これらの課題を克服する。
論文 参考訳(メタデータ) (2024-01-12T00:11:24Z) - NoMIRACL: Knowing When You Don't Know for Robust Multilingual
Retrieval-Augmented Generation [92.5132418788568]
Retrieval-augmented Generation (RAG) は、外部の知識ソースを活用して、事実の幻覚を減らすことで、大きな言語モデル(LLM)を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
1) 幻覚率, 解答の幻覚傾向, 解答が非関連部分集合の通路に存在しない場合, および(ii) 誤差率, モデル不正確さを測定し, 関連する部分集合の通路を認識する。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - Contrastive Learning for Debiased Candidate Generation in Large-Scale
Recommender Systems [84.3996727203154]
コントラスト損失の一般的な選択は、逆確率重み付けによる露光バイアスの低減と等価であることを示す。
我々はCLRecをさらに改良し、マルチCLRecを提案する。
提案手法は,少なくとも4ヶ月のオンラインA/Bテストとオフライン分析が実施され,大幅に改善されている。
論文 参考訳(メタデータ) (2020-05-20T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。