論文の概要: Ranking Large Language Models without Ground Truth
- arxiv url: http://arxiv.org/abs/2402.14860v4
- Date: Mon, 10 Jun 2024 16:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 01:23:27.609670
- Title: Ranking Large Language Models without Ground Truth
- Title(参考訳): 接地真理のない大規模言語モデルのランク付け
- Authors: Amit Dhurandhar, Rahul Nair, Moninder Singh, Elizabeth Daly, Karthikeyan Natesan Ramamurthy,
- Abstract要約: 大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
- 参考スコア(独自算出の注目度): 24.751931637152524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation and ranking of large language models (LLMs) has become an important problem with the proliferation of these models and their impact. Evaluation methods either require human responses which are expensive to acquire or use pairs of LLMs to evaluate each other which can be unreliable. In this paper, we provide a novel perspective where, given a dataset of prompts (viz. questions, instructions, etc.) and a set of LLMs, we rank them without access to any ground truth or reference responses. Inspired by real life where both an expert and a knowledgeable person can identify a novice our main idea is to consider triplets of models, where each one of them evaluates the other two, correctly identifying the worst model in the triplet with high probability. We also analyze our idea and provide sufficient conditions for it to succeed. Applying this idea repeatedly, we propose two methods to rank LLMs. In experiments on different generative tasks (summarization, multiple-choice, and dialog), our methods reliably recover close to true rankings without reference data. This points to a viable low-resource mechanism for practical use.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及とその影響において重要な問題となっている。
評価手法は、取得に費用がかかる人間の反応を必要とするか、信頼性の低いLLMを互いに評価するために使用するかのいずれかである。
本稿では,質問文や指示文など)のデータセットとLLMのセットを与えられた場合,根拠となる真実や参照応答にアクセスできることなく,それらをランク付けする,新しい視点を提供する。
専門家と知識のある人の両方が初心者を識別できる現実の生活に触発された私たちの主要なアイデアは、モデルの三つ子を考えることであり、それぞれが他の2つを評価し、三つ子の中で最悪のモデルを高い確率で正しく識別する。
また、私たちの考えを分析し、成功するための十分な条件を提供します。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
異なる生成タスク(要約、複数選択、ダイアログ)の実験では、参照データなしで真のランキングに近い位置を確実に回復する。
これは、実用のために実行可能な低リソースメカニズムを示している。
関連論文リスト
- Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
このアプローチの重要な特性は、ステップ2の批判モデルがエラーに関するきめ細かいフィードバックを与えてくれることです。
文書基盤要約の現実的整合性を改善する作業において,異なる機能モデルがこのアプローチの精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models [20.944353802665965]
大きな言語モデル(LLM)は、必然的に、トレーニングコーパスから機密性、著作権、有害な知識を記憶する。
LLMアンラーニングのための実世界知識アンラーニングベンチマーク(RWKU)を提案する。
論文 参考訳(メタデータ) (2024-06-16T10:47:21Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - PRD: Peer Rank and Discussion Improve Large Language Model based Evaluations [10.709365940160685]
現代の大規模言語モデル(LLM)は、自動評価と比較が難しい。
本稿では,全ての解答対に対するLLMのペアワイズ選好を考慮に入れたピアランク(PR)アルゴリズムを提案する。
我々のアプローチは高い精度を実現し、人間の判断とよく一致していることがわかりました。
論文 参考訳(メタデータ) (2023-07-06T04:05:44Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。