論文の概要: Predictions from language models for multiple-choice tasks are not
robust under variation of scoring methods
- arxiv url: http://arxiv.org/abs/2403.00998v1
- Date: Fri, 1 Mar 2024 21:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:36:02.063004
- Title: Predictions from language models for multiple-choice tasks are not
robust under variation of scoring methods
- Title(参考訳): 複数選択タスクのための言語モデルからの予測は、スコアリング法の違い下では堅牢ではない
- Authors: Polina Tsvilodub, Hening Wang, Sharon Grosch and Michael Franke
- Abstract要約: 本稿では,複数選択タスクに対する言語モデルの項目レベルの予測を系統的に比較する。
応答の自由生成に基づく解答オプションのスコアリング方法,様々な確率ベースのスコア,Quat-scaleスタイルの評価方法,および類似点の埋め込みを比較した。
- 参考スコア(独自算出の注目度): 5.5711773076846365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper systematically compares different methods of deriving item-level
predictions of language models for multiple-choice tasks. It compares scoring
methods for answer options based on free generation of responses, various
probability-based scores, a Likert-scale style rating method, and embedding
similarity. In a case study on pragmatic language interpretation, we find that
LLM predictions are not robust under variation of method choice, both within a
single LLM and across different LLMs. As this variability entails pronounced
researcher degrees of freedom in reporting results, knowledge of the
variability is crucial to secure robustness of results and research integrity.
- Abstract(参考訳): 本稿では,複数選択タスクに対する言語モデルの項目レベルの予測を系統的に比較する。
応答の自由生成に基づく解答オプションのスコアリング方法,様々な確率ベースのスコア,Quat-scaleスタイルの評価方法,および類似点の埋め込みを比較した。
実用的な言語解釈のケーススタディでは、LLM予測は単一のLLM内と異なるLLM内の両方において、メソッド選択のバリエーションの下では堅牢ではないことが判明した。
この変動性は、報告結果における研究者の自由度を示すため、その変動性に関する知識は、結果の堅牢性と研究の完全性を確保するために不可欠である。
関連論文リスト
- Uncertainty Decomposition and Quantification for In-Context Learning of
Large Language Models [54.18411645870683]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [69.43198898396211]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Resilient Multiple Choice Learning: A learned scoring scheme with
application to audio scene analysis [8.896068269039452]
回帰設定における条件分布推定のための弾力性多重選択学習(rMCL)を提案する。
rMCLは、一連の仮説に対してWinner-Takes-All(WTA)損失を用いて、マルチモーダル密度推定に取り組むための単純なフレームワークである。
論文 参考訳(メタデータ) (2023-11-02T07:54:03Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - CUE: An Uncertainty Interpretation Framework for Text Classifiers Built
on Pre-Trained Language Models [28.750894873827068]
本稿では,PLMモデルに固有の不確かさを解釈することを目的とした,CUEと呼ばれる新しいフレームワークを提案する。
摂動と原文表現の予測不確実性の違いを比較することにより,不確実性の原因となる潜伏次元を同定することができる。
論文 参考訳(メタデータ) (2023-06-06T11:37:46Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - An Additive Instance-Wise Approach to Multi-class Model Interpretation [53.87578024052922]
解釈可能な機械学習は、ブラックボックスシステムの特定の予測を駆動する要因に関する洞察を提供する。
既存の手法は主に、局所的な加法的あるいはインスタンス的なアプローチに従う説明的入力特徴の選択に重点を置いている。
本研究は,両手法の長所を生かし,複数の対象クラスに対する局所的な説明を同時に学習するためのグローバルフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-07T06:50:27Z) - Greedy Search Algorithms for Unsupervised Variable Selection: A
Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。
本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。
本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文 参考訳(メタデータ) (2021-03-03T21:10:26Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。