論文の概要: Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs
- arxiv url: http://arxiv.org/abs/2310.11689v2
- Date: Sat, 11 Nov 2023 19:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:58:53.464545
- Title: Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs
- Title(参考訳): LLMにおける選択予測改善のための自己評価による適応
- Authors: Jiefeng Chen, Jinsung Yoon, Sayna Ebrahimi, Sercan O Arik, Tomas
Pfister, Somesh Jha
- Abstract要約: 大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 56.526095828316386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently shown great advances in a variety
of tasks, including natural language understanding and generation. However,
their use in high-stakes decision-making scenarios is still limited due to the
potential for errors. Selective prediction is a technique that can be used to
improve the reliability of the LLMs by allowing them to abstain from making
predictions when they are unsure of the answer. In this work, we propose a
novel framework for adaptation with self-evaluation to improve the selective
prediction performance of LLMs. Our framework is based on the idea of using
parameter-efficient tuning to adapt the LLM to the specific task at hand while
improving its ability to perform self-evaluation. We evaluate our method on a
variety of question-answering (QA) datasets and show that it outperforms
state-of-the-art selective prediction methods. For example, on the CoQA
benchmark, our method improves the AUACC from 91.23% to 92.63% and improves the
AUROC from 74.61% to 80.25%.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,自然言語理解や生成など,さまざまなタスクにおいて大きな進歩を見せている。
しかし、高い意思決定シナリオでの使用は、エラーの可能性があるため、依然として制限されている。
選択予測(Selective prediction)とは、LLMの信頼性を向上させるために、答えが不確実な場合には予測を控えることによって使用できる手法である。
本研究では, LLMの選択的予測性能を向上させるために, 自己評価による適応のための新しいフレームワークを提案する。
本フレームワークは,自己評価能力の向上を図りながら,パラメータ効率のチューニングを用いて,特定のタスクにLLMを適用するという考え方に基づいている。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択予測手法よりも優れていることを示す。
例えば、CoQAベンチマークでは、AUACCを91.23%から92.63%に改善し、AUROCを74.61%から80.25%に改善した。
関連論文リスト
- Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges [21.580762639442913]
推論中に選択バイアスを緩和する新しいラベルフリー手法であるCalibraEvalを紹介する。
CalibraEvalは、バイアスのない予測分布に合わせて観測された予測分布を調整するための最適化タスクとしてデバイアスを再構成する。
本稿では,CalibraEvalが選択バイアスを効果的に軽減し,既存のデバイアス法と比較して性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-20T13:47:39Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文 参考訳(メタデータ) (2020-08-21T08:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。