論文の概要: Evaluating language models as risk scores
- arxiv url: http://arxiv.org/abs/2407.14614v1
- Date: Fri, 19 Jul 2024 18:13:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 21:43:34.177075
- Title: Evaluating language models as risk scores
- Title(参考訳): リスクスコアとしての言語モデルの評価
- Authors: André F. Cruz, Moritz Hardt, Celestine Mendler-Dünner,
- Abstract要約: 我々は,予測不可能なタスクのリスクスコアとして,言語モデルの利用に焦点をあてる。
大規模言語モデルを用いてリスクスコアを体系的に生成するソフトウェアパッケージであるフォークテキストを導入する。
近年の16大言語モデルに関する実証的な知見を網羅して,民話の有用性を実証する。
- 参考スコア(独自算出の注目度): 23.779329697527054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current question-answering benchmarks predominantly focus on accuracy in realizable prediction tasks. Conditioned on a question and answer-key, does the most likely token match the ground truth? Such benchmarks necessarily fail to evaluate language models' ability to quantify outcome uncertainty. In this work, we focus on the use of language models as risk scores for unrealizable prediction tasks. We introduce folktexts, a software package to systematically generate risk scores using large language models, and evaluate them against benchmark prediction tasks. Specifically, the package derives natural language tasks from US Census data products, inspired by popular tabular data benchmarks. A flexible API allows for any task to be constructed out of 28 census features whose values are mapped to prompt-completion pairs. We demonstrate the utility of folktexts through a sweep of empirical insights on 16 recent large language models, inspecting risk scores, calibration curves, and diverse evaluation metrics. We find that zero-shot risk sores have high predictive signal while being widely miscalibrated: base models overestimate outcome uncertainty, while instruction-tuned models underestimate uncertainty and generate over-confident risk scores.
- Abstract(参考訳): 現在の質問回答ベンチマークは主に、実現可能な予測タスクの正確性に焦点を当てている。
質問と回答キーを条件に、最も可能性の高いトークンは、基礎的な真実と一致しているか?
このようなベンチマークは、結果の不確実性を定量化する言語モデルの能力を評価するのに失敗する。
本研究では,非実現不可能な予測タスクのリスクスコアとして,言語モデルの利用に焦点を当てる。
我々は,大規模言語モデルを用いてリスクスコアを体系的に生成するソフトウェアパッケージであるフォークテキストを導入し,それらをベンチマーク予測タスクと比較した。
具体的には、このパッケージは、人気のある表形式のデータベンチマークにインスパイアされたUS Censusデータ製品から自然言語タスクを導出する。
フレキシブルなAPIにより、28の国勢調査機能から任意のタスクを構築でき、その値が即時補完ペアにマップされる。
我々は,最近の16大言語モデルに関する実証的な知見を網羅し,リスクスコア,キャリブレーション曲線,多様な評価指標を検証し,フォークテキストの有用性を実証する。
ゼロショットリスク・ソアは広く誤解されている一方で高い予測信号を持つことがわかった: ベースモデルは結果の不確実性を過大評価し、インストラクションチューニングされたモデルは不確実性を過小評価し、過大なリスクスコアを生成する。
関連論文リスト
- VarBench: Robust Language Model Benchmarking Through Dynamic Variable Perturbation [16.889939234103153]
本稿では,ベンチマークをバリビライズし,動的に言語モデルを評価することを提案する。
具体的には、各テストケースから変数を抽出し、各変数の値範囲を定義する。
それぞれの評価のために、これらの値から新しい値をサンプリングし、ユニークなテストケースを作成します。
論文 参考訳(メタデータ) (2024-06-25T16:13:53Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - Conformal Prediction with Large Language Models for Multi-Choice
Question Answering [7.049780432343948]
共形予測からの不確実性推定は予測精度と密接に相関していることがわかった。
この研究は、安全クリティカルな状況において、より信頼性が高く信頼性の高い大規模言語モデルの活用に寄与する。
論文 参考訳(メタデータ) (2023-05-28T15:26:10Z) - Can Prompt Probe Pretrained Language Models? Understanding the Invisible
Risks from a Causal View [37.625078897220305]
プリトレーニング言語モデル(PLM)の能力を評価するために,プロンプトに基づく探索が広く用いられている。
本稿では、因果的観点からの素早い探索を考察し、偏りのある結果と結論を誘導する3つの重要なバイアスを強調し、因果的介入による偏りの回避を提案する。
論文 参考訳(メタデータ) (2022-03-23T08:10:07Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Are Some Words Worth More than Others? [3.5598388686985354]
簡単な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。
提案手法を用いて,広く使用されている大規模英語モデルの評価を行った。
論文 参考訳(メタデータ) (2020-10-12T23:12:11Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。