論文の概要: A Formalism and Approach for Improving Robustness of Large Language
Models Using Risk-Adjusted Confidence Scores
- arxiv url: http://arxiv.org/abs/2310.03283v1
- Date: Thu, 5 Oct 2023 03:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:30:08.034355
- Title: A Formalism and Approach for Improving Robustness of Large Language
Models Using Risk-Adjusted Confidence Scores
- Title(参考訳): リスク適応信頼スコアを用いた大規模言語モデルのロバスト性向上のための形式主義とアプローチ
- Authors: Ke Shen and Mayank Kejriwal
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)において驚くべきマイルストーンを達成した
優れた性能にもかかわらず、モデルには重要なリスクが伴うことが知られている。
意思決定リスクと複合リスクという,2つの異なるタイプのリスクを定義し,形式化する。
- 参考スコア(独自算出の注目度): 4.043005183192123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT, have achieved impressive
milestones in natural language processing (NLP). Despite their impressive
performance, the models are known to pose important risks. As these models are
deployed in real-world applications, a systematic understanding of different
risks posed by these models on tasks such as natural language inference (NLI),
is much needed. In this paper, we define and formalize two distinct types of
risk: decision risk and composite risk. We also propose a risk-centric
evaluation framework, and four novel metrics, for assessing LLMs on these risks
in both in-domain and out-of-domain settings. Finally, we propose a
risk-adjusted calibration method called DwD for helping LLMs minimize these
risks in an overall NLI architecture. Detailed experiments, using four NLI
benchmarks, three baselines and two LLMs, including ChatGPT, show both the
practical utility of the evaluation framework, and the efficacy of DwD in
reducing decision and composite risk. For instance, when using DwD, an
underlying LLM is able to address an extra 20.1% of low-risk inference tasks
(but which the LLM erroneously deems high-risk without risk adjustment) and
skip a further 19.8% of high-risk tasks, which would have been answered
incorrectly.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、自然言語処理(NLP)において驚くべきマイルストーンを達成した。
優れた性能にもかかわらず、モデルには重要なリスクが伴うことが知られている。
これらのモデルが現実世界のアプリケーションにデプロイされるため、自然言語推論(nli)のようなタスクでこれらのモデルによってもたらされるさまざまなリスクを体系的に理解する必要がある。
本稿では,意思決定リスクと複合リスクの2つの異なるタイプのリスクを定義し,形式化する。
また,リスク中心評価フレームワークと4つの新しい指標を提案し,これらのリスクをドメイン内およびドメイン外の両方で評価する。
最後に,これらのリスクを最小限に抑えるために,dwdと呼ばれるリスク調整型キャリブレーション手法を提案する。
4つのNLIベンチマーク、3つのベースライン、2つのLLM(ChatGPTを含む)を用いた詳細な実験は、評価フレームワークの実用性とDwDの有効性の両方を示している。
例えば、dwdを使用する場合、基礎となるllmは20.1%の低リスク推論タスク(ただし、llmはリスク調整なしに高リスクを誤認している)を処理でき、さらに19.8%の高リスクタスクをスキップすることができる。
関連論文リスト
- Quantifying Risk Propensities of Large Language Models: Ethical Focus and Bias Detection through Role-Play [0.43512163406552007]
大きな言語モデル(LLM)がより普及するにつれて、その安全性、倫理、潜在的なバイアスに対する懸念が高まっている。
本研究は,認知科学からLLMまで,Domain-Specific Risk-Taking(DOSPERT)尺度を革新的に適用する。
本研究では,LLMの倫理的リスク態度を深く評価するために,倫理的意思決定リスク態度尺度(EDRAS)を提案する。
論文 参考訳(メタデータ) (2024-10-26T15:55:21Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Defining and Evaluating Decision and Composite Risk in Language Models Applied to Natural Language Inference [3.422309388045878]
ChatGPTのような大規模言語モデル(LLM)は、重大なリスクをもたらすことが知られている。
モデルが推論に持っている過信または過信から、誤った信頼が生じる。
本稿では,2段階の推論アーキテクチャと,そのようなリスクを測定するための適切な指標からなる実験フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-04T05:24:32Z) - CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models [46.93425758722059]
CRiskEvalは、大規模言語モデル(LLM)に固有のリスク確率を正確に計測するために設計された中国のデータセットである。
7種類のフロンティアリスクと4つの安全性レベルを持つ新たなリスク分類を定義する。
データセットは、事前に定義された7種類のフロンティアリスクに関連するシナリオをシミュレートする14,888の質問で構成されている。
論文 参考訳(メタデータ) (2024-06-07T08:52:24Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - GUARD-D-LLM: An LLM-Based Risk Assessment Engine for the Downstream uses of LLMs [0.0]
本稿では,大規模言語モデル(LLM)の下流から発生するリスクについて検討する。
テキストベースのユーザ入力から派生した特定のユースケースに関連する脅威を特定し、ランク付けする新しいLCMベースのリスクアセスメントエンジン(GUARD-D-LLM)を導入する。
30の知的エージェントを統合することで、この革新的なアプローチは、悪夢のリスクを特定し、その重症度を測定し、緩和のためのターゲットとなる提案を提供し、リスク認識開発を促進する。
論文 参考訳(メタデータ) (2024-04-02T05:25:17Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models [57.10361282229501]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - Walking a Tightrope -- Evaluating Large Language Models in High-Risk
Domains [15.320563604087246]
リスクの高いドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題を提起する。
大規模言語モデル(LLM)が大成功を収めたにもかかわらず、ハイリスク領域でのそれらのパフォーマンスはいまだに不明である。
論文 参考訳(メタデータ) (2023-11-25T08:58:07Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。