Fugu-MT 論文翻訳(概要): Multi-Perspective Consistency Enhances Confidence Estimation in Large Language Models

論文の概要: Multi-Perspective Consistency Enhances Confidence Estimation in Large Language Models

arxiv url: http://arxiv.org/abs/2402.11279v1
Date: Sat, 17 Feb 2024 13:37:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 22:11:28.733288
Title: Multi-Perspective Consistency Enhances Confidence Estimation in Large Language Models
Title（参考訳）: 大規模言語モデルにおけるマルチパースペクティブ一貫性による信頼度推定
Authors: Pei Wang, Yejie Wang, Muxi Diao, Keqing He, Guanting Dong, Weiran Xu
Abstract要約: 本研究は,大規模言語モデルの信頼性評価の改善に焦点を当てる。言語モデルにおける自己認識の脆弱さを考慮して,マルチパースペクティブ・一貫性(MPC)法を提案する。 8つの公開データセットの実験結果は、我々のMPCが最先端のパフォーマンスを達成することを示す。
参考スコア（独自算出の注目度）: 27.63938857490995
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the deployment of large language models (LLMs), accurate confidence estimation is critical for assessing the credibility of model predictions. However, existing methods often fail to overcome the issue of overconfidence on incorrect answers. In this work, we focus on improving the confidence estimation of large language models. Considering the fragility of self-awareness in language models, we introduce a Multi-Perspective Consistency (MPC) method. We leverage complementary insights from different perspectives within models (MPC-Internal) and across different models (MPC-Across) to mitigate the issue of overconfidence arising from a singular viewpoint. The experimental results on eight publicly available datasets show that our MPC achieves state-of-the-art performance. Further analyses indicate that MPC can mitigate the problem of overconfidence and is effectively scalable to other models.
Abstract（参考訳）: 大規模言語モデル(llm)の展開においては,モデル予測の信頼性を評価する上で,正確な信頼度推定が重要である。しかし、既存の手法は、しばしば不正確な答えに対する過信の問題を克服することができない。本研究は,大規模言語モデルの信頼度推定の改善に焦点をあてる。言語モデルにおける自己認識の脆弱さを考慮して,マルチパースペクティブ・一貫性(MPC)法を提案する。モデル内の異なる視点(MPC-Internal)と異なるモデル(MPC-Across)の相補的な洞察を活用し、特異な視点から生じる過信の問題を軽減する。 8つの公開データセットの実験結果は、我々のMPCが最先端のパフォーマンスを達成することを示す。さらなる分析は、MPCが過信の問題を軽減することができ、他のモデルに効果的にスケーラブルであることを示している。

関連論文リスト

Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
本稿では,モデルサイズ,緩和要因,質問タイプが信頼性アライメントに与える影響について検討する。本稿では,過信度を計測し,複数選択形式が誤校正を悪化させるかどうかを検討するための評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-16T07:46:09Z)
The Craft of Selective Prediction: Towards Reliable Case Outcome Classification -- An Empirical Study on European Court of Human Rights Cases [1.9570703832723582]
本稿では,COCモデルの設計選択が選択予測の枠組みにおけるCOCモデルの信頼性にどのように影響するかを実験的に検討する。欧州人権裁判所(ECtHR)の事例に焦点をあてたマルチラベルCOCタスクの実験では,キャリブレーションを改善するために,多種多様なドメイン固有の事前学習コーパスの重要性を強調した。
論文参考訳（メタデータ） (2024-09-27T11:25:10Z)
Finetuning Language Models to Emit Linguistic Expressions of Uncertainty [5.591074369497796]
大規模言語モデル(LLM)は情報検索や意思決定のタスクにますます採用されている。 LLMは現実世界の事実と矛盾する情報を生成する傾向があり、その説得的なスタイルはこれらの不正確さを自信と説得力に見せかける。本研究では,不確実性の言語表現を生成するモデルを開発する手法として,不確実性拡張予測の教師付き微調整について検討する。
論文参考訳（メタデータ） (2024-09-18T17:52:53Z)
Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models [14.5291643644017]
信頼性・確率アライメントの概念を紹介します。モデルの内部と信頼感の一致を調査する。分析したモデルのうち、OpenAIのGPT-4は信頼性と信頼性のアライメントが最強であった。
論文参考訳（メタデータ） (2024-05-25T15:42:04Z)
Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文参考訳（メタデータ） (2024-04-03T11:36:12Z)
Uncertainty-Aware Evaluation for Vision-Language Models [0.0]
現在の評価手法は重要な要素である不確実性を見落としている。精度の高いモデルも高い不確実性を持つ可能性があることを示す。また, 実験結果から, モデルの不確かさと言語モデル部分との相関が明らかとなった。
論文参考訳（メタデータ） (2024-02-22T10:04:17Z)
Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文参考訳（メタデータ） (2024-02-21T16:15:20Z)
Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-15T02:59:10Z)
Measuring and Modeling Uncertainty Degree for Monocular Depth Estimation [50.920911532133154]
単分子深度推定モデル(MDE)の本質的な不適切さと順序感性は、不確かさの程度を推定する上で大きな課題となる。本稿では,MDEモデルの不確かさを固有確率分布の観点からモデル化する。新たなトレーニング正規化用語を導入することで、驚くほど単純な構成で、余分なモジュールや複数の推論を必要とせずに、最先端の信頼性で不確実性を推定できる。
論文参考訳（メタデータ） (2023-07-19T12:11:15Z)
Calibrating Multimodal Learning [94.65232214643436]
本稿では,従来の手法の予測信頼性を校正するために,新たな正規化手法であるCML(Callibrating Multimodal Learning)正則化を提案する。この技術は、既存のモデルによって柔軟に装備され、信頼性校正、分類精度、モデルロバスト性の観点から性能を向上させることができる。
論文参考訳（メタデータ） (2023-06-02T04:29:57Z)
Trusted Multi-View Classification with Dynamic Evidential Fusion [73.35990456162745]
信頼型マルチビュー分類(TMC)と呼ばれる新しいマルチビュー分類アルゴリズムを提案する。 TMCは、様々な視点をエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。理論的および実験的結果は、精度、堅牢性、信頼性において提案されたモデルの有効性を検証した。
論文参考訳（メタデータ） (2022-04-25T03:48:49Z)
Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文参考訳（メタデータ） (2021-02-03T13:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。