論文の概要: Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs
- arxiv url: http://arxiv.org/abs/2310.11689v2
- Date: Sat, 11 Nov 2023 19:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:58:53.464545
- Title: Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs
- Title(参考訳): LLMにおける選択予測改善のための自己評価による適応
- Authors: Jiefeng Chen, Jinsung Yoon, Sayna Ebrahimi, Sercan O Arik, Tomas
Pfister, Somesh Jha
- Abstract要約: 大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 56.526095828316386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently shown great advances in a variety
of tasks, including natural language understanding and generation. However,
their use in high-stakes decision-making scenarios is still limited due to the
potential for errors. Selective prediction is a technique that can be used to
improve the reliability of the LLMs by allowing them to abstain from making
predictions when they are unsure of the answer. In this work, we propose a
novel framework for adaptation with self-evaluation to improve the selective
prediction performance of LLMs. Our framework is based on the idea of using
parameter-efficient tuning to adapt the LLM to the specific task at hand while
improving its ability to perform self-evaluation. We evaluate our method on a
variety of question-answering (QA) datasets and show that it outperforms
state-of-the-art selective prediction methods. For example, on the CoQA
benchmark, our method improves the AUACC from 91.23% to 92.63% and improves the
AUROC from 74.61% to 80.25%.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,自然言語理解や生成など,さまざまなタスクにおいて大きな進歩を見せている。
しかし、高い意思決定シナリオでの使用は、エラーの可能性があるため、依然として制限されている。
選択予測(Selective prediction)とは、LLMの信頼性を向上させるために、答えが不確実な場合には予測を控えることによって使用できる手法である。
本研究では, LLMの選択的予測性能を向上させるために, 自己評価による適応のための新しいフレームワークを提案する。
本フレームワークは,自己評価能力の向上を図りながら,パラメータ効率のチューニングを用いて,特定のタスクにLLMを適用するという考え方に基づいている。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択予測手法よりも優れていることを示す。
例えば、CoQAベンチマークでは、AUACCを91.23%から92.63%に改善し、AUROCを74.61%から80.25%に改善した。
関連論文リスト
- Grade Score: Quantifying LLM Performance in Option Selection [0.0]
グレードスコア」は、大規模言語モデル(LLM)の一貫性と公平性を評価するために設計された新しい計量である
グレードスコアは、順序バイアスを測定するエントロピーと、選択安定性を評価するモード周波数を組み合わせる。
本研究は,グレードスコアを最適化するために,プロンプトエンジニアリングやオプションサンプリング戦略などの手法を探求する。
論文 参考訳(メタデータ) (2024-06-17T19:29:39Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Which Examples to Annotate for In-Context Learning? Towards Effective
and Efficient Selection [35.924633625147365]
大規模言語モデル(LLM)は、文脈内学習(ICL)を介して新しいタスクに適応できる
そこで本研究では,ICLのアクティブな学習手法について検討し,アノテートのための予算が限られている。
本稿では,モデルが不確実であることを示すモデル適応型最適化自由アルゴリズムAdaICLを提案する。
論文 参考訳(メタデータ) (2023-10-30T22:03:55Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文 参考訳(メタデータ) (2020-08-21T08:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。