論文の概要: Unlocking the Power of LLM Uncertainty for Active In-Context Example Selection
- arxiv url: http://arxiv.org/abs/2408.09172v4
- Date: Sun, 12 Jan 2025 16:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:12.011001
- Title: Unlocking the Power of LLM Uncertainty for Active In-Context Example Selection
- Title(参考訳): アクティブな実例選択のためのLLM不確かさの解錠
- Authors: Hsiu-Yuan Huang, Zichen Wu, Yutong Yang, Junzhao Zhang, Yunfang Wu,
- Abstract要約: Uncertainty Tripartite Testing Paradigm (Unc-TTP)は、LLM(Large Language Models)を分類する新しい手法である。
Unc-TTPは、異なるラベル注入干渉下で3ラウンドのサンプリングを行い、全ての可能な結果を列挙する。
本実験は,Unc-TTPを用いて選択した不確実性例が確実性例よりも有益であることを示す。
- 参考スコア(独自算出の注目度): 6.813733517894384
- License:
- Abstract: Large Language Models (LLMs) have shown remarkable performance across a wide range of downstream tasks. However, it is challenging for users to discern whether the responses of LLM are generated with certainty or are fabricated to meet user expectations. In this paper, we introduce Uncertainty Tripartite Testing Paradigm (Unc-TTP), a novel method for classifying LLM uncertainty by leveraging output inconsistency. Specifically, Unc-TTP performs three rounds of sampling under varying label injection interference, enumerating all possible outcomes, and uses the degree of output inconsistency as the indicator of the LLM's intrinsic uncertainty. To validate the effectiveness of this inconsistency-defined uncertainty, we draw inspiration from Active Learning, comparing the informativeness of actively selected in-context examples. Our experiments show that uncertainty examples selected via Unc-TTP are more informative than certainty examples. Furthermore, the Unc-TTP-guided uncertainty-based active example selection strategy outperforms existing methods, highlighting its effectiveness in classifying LLM uncertainty and enhancing in-context learning. This work not only underscores the potential of inconsistency-based uncertainty classification for both open- and closed-source LLMs but also presents a practical approach for leveraging uncertainty to improve LLM performance in real-world tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い下流タスクで顕著なパフォーマンスを示している。
しかし,LCMの応答が確実に生成されるか,あるいはユーザの期待に応えて作られているかを知ることは困難である。
本稿では,不整合性を利用したLCMの不確実性分類手法Uncertainty Tripartite Testing Paradigm (Unc-TTP)を提案する。
特に、Unc-TTPは、ラベル注入の様々な干渉の下で3ラウンドのサンプリングを行い、全ての可能な結果を列挙し、出力の不整合度をLLMの本質的な不確実性の指標として利用する。
この不整合定義の不確実性の有効性を検証するため、アクティブラーニングからインスピレーションを得て、アクティブに選択されたインコンテキスト例のインフォメーション性を比較した。
本実験は,Unc-TTPを用いて選択した不確実性例が確実性例よりも有益であることを示す。
さらに、Unc-TTP誘導の不確実性に基づくアクティブなサンプル選択戦略は既存の手法よりも優れており、LCMの不確実性を分類し、文脈内学習を向上させる効果を強調している。
この研究は,オープンソースLLMとクローズドソースLLMの両面での不整合性に基づく不確実性分類の可能性を示すだけでなく,不確実性を利用した実世界のタスクにおけるLLM性能向上のための実践的アプローチも提示する。
関連論文リスト
- Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Evaluating Consistencies in LLM responses through a Semantic Clustering of Question Answering [1.9214041945441436]
本稿では,Large Language Model (LLM) のセマンティクスを評価するための新しいアプローチを提案する。
本稿では,LLM再応答が意味論的に一致しているかどうかを考察し,構文的に異なる文が同じ意味を持つ可能性があることを認識した。
TruthfulQAデータセットを用いてLLM応答を評価することにより、37のカテゴリにわたる意味的一貫性を測定するために、質問毎にNの応答を誘導し、意味的に等価な文をクラスタ化する。
論文 参考訳(メタデータ) (2024-10-20T16:21:25Z) - Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z) - The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism [39.392450788666814]
大規模言語モデル(LLM)の現在の評価は、しばしば非決定論を見落としている。
greedyデコーディングは一般的に、最も評価されたタスクのサンプリング方法よりも優れています。
より小型のLPMはGPT-4-Turboのような大型のモデルと一致するか、超えることができる。
論文 参考訳(メタデータ) (2024-07-15T06:12:17Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。
しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。
本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-01T12:52:06Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。