論文の概要: Benchmarking Large Language Model Uncertainty for Prompt Optimization
- arxiv url: http://arxiv.org/abs/2409.10044v1
- Date: Mon, 16 Sep 2024 07:13:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 16:30:58.858378
- Title: Benchmarking Large Language Model Uncertainty for Prompt Optimization
- Title(参考訳): プロンプト最適化のための大規模言語モデルの不確かさのベンチマーク
- Authors: Pei-Fu Guo, Yun-Da Tsai, Shou-De Lin,
- Abstract要約: 本稿では,不確実性指標を評価するためのベンチマークデータセットを提案する。
現在のメトリクスは、正当性不確実性ではなく、出力の信頼性と多様性を反映したアンサー不確実性とより一致していることを示します。
- 参考スコア(独自算出の注目度): 4.151658495779136
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Prompt optimization algorithms for Large Language Models (LLMs) excel in multi-step reasoning but still lack effective uncertainty estimation. This paper introduces a benchmark dataset to evaluate uncertainty metrics, focusing on Answer, Correctness, Aleatoric, and Epistemic Uncertainty. Through analysis of models like GPT-3.5-Turbo and Meta-Llama-3.1-8B-Instruct, we show that current metrics align more with Answer Uncertainty, which reflects output confidence and diversity, rather than Correctness Uncertainty, highlighting the need for improved metrics that are optimization-objective-aware to better guide prompt optimization. Our code and dataset are available at https://github.com/0Frett/PO-Uncertainty-Benchmarking.
- Abstract(参考訳): 大規模言語モデル(LLM)のプロンプト最適化アルゴリズムは、多段階推論において優れているが、効果的な不確実性推定を欠いている。
本稿では、アンサー、正確性、アレタリック、疫学不確実性に着目し、不確実性指標を評価するためのベンチマークデータセットを提案する。
GPT-3.5-TurboやMeta-Llama-3.1-8B-Instructのようなモデルの解析を通して、現在のメトリクスは、最適化対象のメトリクスの改善の必要性を強調し、迅速な最適化を導くために、出力の信頼性と多様性を反映するAnswer Uncertaintyとよく一致していることを示す。
私たちのコードとデータセットはhttps://github.com/0Frett/PO-Uncertainty-Benchmarking.orgで公開されています。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - End-to-End Conformal Calibration for Optimization Under Uncertainty [32.844953018302874]
本稿では,条件最適化のための不確実性推定を学習するためのエンドツーエンドフレームワークを開発する。
さらに,部分凸ニューラルネットワークを用いた任意の凸不確実性集合の表現を提案する。
我々のアプローチは2段階最適化によって一貫して改善される。
論文 参考訳(メタデータ) (2024-09-30T17:38:27Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Robust portfolio optimization for recommender systems considering uncertainty of estimated statistics [2.928964540437144]
本稿では,基数に基づく不確実性集合に基づく推定統計の不確実性に対応する,ロバストなポートフォリオ最適化モデルを提案する。
提案手法は,様々なレーティング予測アルゴリズムの推薦品質を向上させる可能性がある。
論文 参考訳(メタデータ) (2024-06-09T15:42:54Z) - End-to-End Learning for Fair Multiobjective Optimization Under
Uncertainty [55.04219793298687]
機械学習における予測-Then-Forecast(PtO)パラダイムは、下流の意思決定品質を最大化することを目的としている。
本稿では,PtO法を拡張して,OWA(Nondifferentiable Ordered Weighted Averaging)の目的を最適化する。
この結果から,不確実性の下でのOWA関数の最適化とパラメトリック予測を効果的に統合できることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T16:33:35Z) - Optimal Learning via Moderate Deviations Theory [4.6930976245638245]
我々は、中等度偏差原理に基づくアプローチを用いて、高精度な信頼区間の体系的構築を開発する。
提案した信頼区間は,指数的精度,最小性,整合性,誤評価確率,結果整合性(UMA)特性の基準を満たすという意味で統計的に最適であることが示されている。
論文 参考訳(メタデータ) (2023-05-23T19:57:57Z) - Generalizing Bayesian Optimization with Decision-theoretic Entropies [102.82152945324381]
統計的決定論の研究からシャノンエントロピーの一般化を考える。
まず,このエントロピーの特殊なケースがBO手順でよく用いられる獲得関数に繋がることを示す。
次に、損失に対する選択肢の選択が、どのようにして柔軟な獲得関数の族をもたらすかを示す。
論文 参考訳(メタデータ) (2022-10-04T04:43:58Z) - Data-Driven Robust Optimization using Unsupervised Deep Learning [0.0]
逆問題に対して凸混合整数プログラムとして定式化することにより、トレーニングされたニューラルネットワークをロバストな最適化モデルに統合できることを示す。
このアプローチは、カーネルベースのサポートベクターセットを用いて、同様のアプローチより優れていることが判明した。
論文 参考訳(メタデータ) (2020-11-19T11:06:54Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。