Fugu-MT 論文翻訳(概要): Predictions from language models for multiple-choice tasks are not robust under variation of scoring methods

論文の概要: Predictions from language models for multiple-choice tasks are not robust under variation of scoring methods

arxiv url: http://arxiv.org/abs/2403.00998v1
Date: Fri, 1 Mar 2024 21:48:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 15:36:02.063004
Title: Predictions from language models for multiple-choice tasks are not robust under variation of scoring methods
Title（参考訳）: 複数選択タスクのための言語モデルからの予測は、スコアリング法の違い下では堅牢ではない
Authors: Polina Tsvilodub, Hening Wang, Sharon Grosch and Michael Franke
Abstract要約: 本稿では,複数選択タスクに対する言語モデルの項目レベルの予測を系統的に比較する。応答の自由生成に基づく解答オプションのスコアリング方法,様々な確率ベースのスコア,Quat-scaleスタイルの評価方法,および類似点の埋め込みを比較した。
参考スコア（独自算出の注目度）: 5.5711773076846365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper systematically compares different methods of deriving item-level predictions of language models for multiple-choice tasks. It compares scoring methods for answer options based on free generation of responses, various probability-based scores, a Likert-scale style rating method, and embedding similarity. In a case study on pragmatic language interpretation, we find that LLM predictions are not robust under variation of method choice, both within a single LLM and across different LLMs. As this variability entails pronounced researcher degrees of freedom in reporting results, knowledge of the variability is crucial to secure robustness of results and research integrity.
Abstract（参考訳）: 本稿では,複数選択タスクに対する言語モデルの項目レベルの予測を系統的に比較する。応答の自由生成に基づく解答オプションのスコアリング方法,様々な確率ベースのスコア,Quat-scaleスタイルの評価方法,および類似点の埋め込みを比較した。実用的な言語解釈のケーススタディでは、LLM予測は単一のLLM内と異なるLLM内の両方において、メソッド選択のバリエーションの下では堅牢ではないことが判明した。この変動性は、報告結果における研究者の自由度を示すため、その変動性に関する知識は、結果の堅牢性と研究の完全性を確保するために不可欠である。

関連論文リスト

Multiple Choice Learning of Low Rank Adapters for Language Modeling [40.380297530862656]
本稿では,言語モデルにおける次トーケン予測を拡張する学習手法であるLoRA-MCLを提案する。本研究では,実環境における視覚的・音声的キャプションタスクについて広範な実験を行い,本手法が生成した出力の多様性と関連性を実証する。
論文参考訳（メタデータ） (2025-07-14T16:00:51Z)
How Reliable is Multilingual LLM-as-a-Judge? [11.639184489330368]
25言語を含む5つの多種多様なタスクにおいて、異なるモデルファミリーから5つのモデルを評価する。一貫性は言語によって大きく異なり、低リソース言語では特にパフォーマンスが劣っていることが分かりました。実世界のアプリケーションにおける多言語判断の整合性を改善するアンサンブル戦略を提案する。
論文参考訳（メタデータ） (2025-05-18T02:32:35Z)
A statistically consistent measure of Semantic Variability using Language Models [3.4933610074113464]
軽度の仮定の下で統計的に一貫した意味変数の尺度を示す。この測度は意味スペクトルエントロピー(semantic spectrum entropy, 意味スペクトルエントロピー)と呼ばれ、棚外の言語モデルを必要とするアルゴリズムの実装が容易である。
論文参考訳（メタデータ） (2025-02-01T17:55:58Z)
Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文参考訳（メタデータ） (2024-09-23T07:55:35Z)
Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文参考訳（メタデータ） (2024-08-24T14:14:32Z)
In-Context Example Selection via Similarity Search Improves Low-Resource Machine Translation [20.704153242284114]
機械翻訳(MT)は、テキスト内翻訳の例から恩恵を受けることが示されているタスクである。サンプルの選択方法に関する体系的な研究は発表されておらず、類似性に基づく選択の有用性について混合の結果が報告されている。文の埋め込み類似性は,特に低リソース言語方向においてMTを改善することができる。
論文参考訳（メタデータ） (2024-08-01T09:07:32Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
CSS: Contrastive Semantic Similarity for Uncertainty Quantification of LLMs [1.515687944002438]
テキストペアの不確実性を測定するための類似性特徴を求めるモジュールであるContrastive Semantic similarityを提案する。我々は,3つの大規模言語モデル (LLM) を用いて,複数のベンチマーク質問応答データセットについて広範な実験を行った。提案手法は,LLMの信頼性の高い応答を,同等のベースラインよりも高い精度で推定できることを示す。
論文参考訳（メタデータ） (2024-06-05T11:35:44Z)
Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文参考訳（メタデータ） (2024-01-22T16:25:27Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Resilient Multiple Choice Learning: A learned scoring scheme with application to audio scene analysis [8.896068269039452]
回帰設定における条件分布推定のための弾力性多重選択学習(rMCL)を提案する。 rMCLは、一連の仮説に対してWinner-Takes-All(WTA)損失を用いて、マルチモーダル密度推定に取り組むための単純なフレームワークである。
論文参考訳（メタデータ） (2023-11-02T07:54:03Z)
Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文参考訳（メタデータ） (2023-06-19T14:27:21Z)
Active Learning Principles for In-Context Learning with Large Language Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。 ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文参考訳（メタデータ） (2023-05-23T17:16:04Z)
Greedy Search Algorithms for Unsupervised Variable Selection: A Comparative Study [3.4888132404740797]
本稿では,非監視変数選択に基づく次元還元について述べる。本稿では,7つの非監視勾配変数選択アルゴリズムの臨界評価について述べる。本稿では,FSCA(Forward selection component analysis)アルゴリズムで説明された分散の遅延実装を初めて導入し,評価する。
論文参考訳（メタデータ） (2021-03-03T21:10:26Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。