論文の概要: Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs
- arxiv url: http://arxiv.org/abs/2310.11689v2
- Date: Sat, 11 Nov 2023 19:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 19:58:53.464545
- Title: Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs
- Title(参考訳): LLMにおける選択予測改善のための自己評価による適応
- Authors: Jiefeng Chen, Jinsung Yoon, Sayna Ebrahimi, Sercan O Arik, Tomas
Pfister, Somesh Jha
- Abstract要約: 大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 56.526095828316386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have recently shown great advances in a variety
of tasks, including natural language understanding and generation. However,
their use in high-stakes decision-making scenarios is still limited due to the
potential for errors. Selective prediction is a technique that can be used to
improve the reliability of the LLMs by allowing them to abstain from making
predictions when they are unsure of the answer. In this work, we propose a
novel framework for adaptation with self-evaluation to improve the selective
prediction performance of LLMs. Our framework is based on the idea of using
parameter-efficient tuning to adapt the LLM to the specific task at hand while
improving its ability to perform self-evaluation. We evaluate our method on a
variety of question-answering (QA) datasets and show that it outperforms
state-of-the-art selective prediction methods. For example, on the CoQA
benchmark, our method improves the AUACC from 91.23% to 92.63% and improves the
AUROC from 74.61% to 80.25%.
- Abstract(参考訳): 大規模言語モデル(LLM)は近年,自然言語理解や生成など,さまざまなタスクにおいて大きな進歩を見せている。
しかし、高い意思決定シナリオでの使用は、エラーの可能性があるため、依然として制限されている。
選択予測(Selective prediction)とは、LLMの信頼性を向上させるために、答えが不確実な場合には予測を控えることによって使用できる手法である。
本研究では, LLMの選択的予測性能を向上させるために, 自己評価による適応のための新しいフレームワークを提案する。
本フレームワークは,自己評価能力の向上を図りながら,パラメータ効率のチューニングを用いて,特定のタスクにLLMを適用するという考え方に基づいている。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択予測手法よりも優れていることを示す。
例えば、CoQAベンチマークでは、AUACCを91.23%から92.63%に改善し、AUROCを74.61%から80.25%に改善した。
関連論文リスト
- Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges [21.580762639442913]
推論中に選択バイアスを緩和する新しいラベルフリー手法であるCalibraEvalを紹介する。
CalibraEvalは、バイアスのない予測分布に合わせて観測された予測分布を調整するための最適化タスクとしてデバイアスを再構成する。
本稿では,CalibraEvalが選択バイアスを効果的に軽減し,既存のデバイアス法と比較して性能を向上させることを示す。
論文 参考訳(メタデータ) (2024-10-20T13:47:39Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Towards Improving Selective Prediction Ability of NLP Systems [24.774450633678125]
本稿では,予測信頼度とインスタンスの難易度を用いてモデルを校正することにより,モデルの確率推定を改善する手法を提案する。
In-Domain (IID) と Out-of-Domain (OOD) の2つの設定で評価を行う。
論文 参考訳(メタデータ) (2020-08-21T08:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。