論文の概要: Uncertainty Awareness of Large Language Models Under Code Distribution
Shifts: A Benchmark Study
- arxiv url: http://arxiv.org/abs/2402.05939v1
- Date: Fri, 12 Jan 2024 00:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 14:32:43.096458
- Title: Uncertainty Awareness of Large Language Models Under Code Distribution
Shifts: A Benchmark Study
- Title(参考訳): コード分散シフトによる大規模言語モデルの不確実性認識:ベンチマークによる検討
- Authors: Yufei Li, Simin Chen, Yanghong Guo, Wei Yang, Yue Dong, Cong Liu
- Abstract要約: 大規模言語モデル(LLM)は、人間の生産性を高めるために、プログラム言語分析に広く用いられている。
その信頼性は、さまざまなコード分散シフトによって損なわれ、一貫性のない出力につながる。
確率法は不確実性キャリブレーションと推定によってそのような影響を軽減することが知られている。
- 参考スコア(独自算出の注目度): 14.507068647009602
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have been widely employed in programming
language analysis to enhance human productivity. Yet, their reliability can be
compromised by various code distribution shifts, leading to inconsistent
outputs. While probabilistic methods are known to mitigate such impact through
uncertainty calibration and estimation, their efficacy in the language domain
remains underexplored compared to their application in image-based tasks. In
this work, we first introduce a large-scale benchmark dataset, incorporating
three realistic patterns of code distribution shifts at varying intensities.
Then we thoroughly investigate state-of-the-art probabilistic methods applied
to CodeLlama using these shifted code snippets. We observe that these methods
generally improve the uncertainty awareness of CodeLlama, with increased
calibration quality and higher uncertainty estimation~(UE) precision. However,
our study further reveals varied performance dynamics across different criteria
(e.g., calibration error vs misclassification detection) and trade-off between
efficacy and efficiency, highlighting necessary methodological selection
tailored to specific contexts.
- Abstract(参考訳): 大規模言語モデル(llm)は、人間の生産性を高めるためにプログラミング言語分析に広く使われている。
しかし、その信頼性は様々なコード分散シフトによって損なわれ、一貫性のない出力につながる。
不確実性校正と推定によってそのような影響を軽減できる確率的手法が知られているが、画像ベースのタスクでの適用と比較して、言語領域の有効性は未検討のままである。
本研究では,まず大規模ベンチマークデータセットを導入し,様々な強度でコード分散シフトの現実的なパターンを3つ取り入れた。
次に,これらのシフトコードスニペットを用いて,codellamaに適用する最先端の確率的手法を徹底的に検討する。
これらの手法は, キャリブレーション品質の向上と高い不確実性推定(ue)精度により, 一般にコーデュラマの不確実性認識を改善する。
しかし,本研究ではさらに,様々な基準(キャリブレーションエラーと誤分類検出)と有効性と効率のトレードオフにより,特定の文脈に合わせた方法論選択の必要性を浮き彫りにした。
関連論文リスト
- Improving Uncertainty Quantification in Large Language Models via Semantic Embeddings [11.33157177182775]
大規模言語モデル(LLM)における正確な不確実性の定量化は、信頼性の高いデプロイメントに不可欠である。
LLMにおける意味的不確実性を測定するための現在の最先端手法は、厳密な双方向の包含基準に依存している。
本研究では,意味的不確実性のよりスムーズでロバストな推定を実現するためにセマンティックな埋め込みを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-30T04:41:46Z) - On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。
本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。
最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文 参考訳(メタデータ) (2024-10-04T14:08:02Z) - Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning [50.84938730450622]
数理推論におけるOOD検出にトラジェクトリボラティリティを用いたトラジェクトリベースのTVスコアを提案する。
本手法は, 数学的推論シナリオ下でのGLM上での従来のアルゴリズムよりも優れる。
提案手法は,複数選択質問などの出力空間における高密度特徴を持つアプリケーションに拡張することができる。
論文 参考訳(メタデータ) (2024-05-22T22:22:25Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - On Uncertainty Calibration and Selective Generation in Probabilistic
Neural Summarization: A Benchmark Study [14.041071717005362]
要約のための最新のディープモデルは、優れたベンチマーク性能を得るが、誤校正された予測の不確実性を生成する傾向にある。
これは、低品質の予測に高い信頼性を割り当て、現実世界のアプリケーションにおける信頼性と信頼性を損なうことを意味する。
確率的深層学習法は誤校正問題の一般的な解法であるが, 複雑な自己回帰的要約タスクにおける相対的有効性はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-17T23:06:28Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - Post-hoc Uncertainty Learning using a Dirichlet Meta-Model [28.522673618527417]
本研究では,不確実性定量化能力の優れた事前学習モデルを構築するための新しいベイズメタモデルを提案する。
提案手法は追加のトレーニングデータを必要としないため,不確かさの定量化に十分な柔軟性がある。
提案するメタモデルアプローチの柔軟性と,これらのアプリケーションに対する優れた経験的性能を実証する。
論文 参考訳(メタデータ) (2022-12-14T17:34:11Z) - Estimating Predictive Uncertainty Under Program Data Distribution Shift [3.603932017607092]
明確に定義された不確実性は、モデルの出力が信頼されるべきである(または信用すべきでない)かどうかを示す。
既存の不確実性アプローチでは、異なるデータ分布からのサンプルのテストが信頼できないモデル予測を引き起こすと仮定している。
論文 参考訳(メタデータ) (2021-07-23T01:50:22Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。