論文の概要: A Formalism and Approach for Improving Robustness of Large Language
Models Using Risk-Adjusted Confidence Scores
- arxiv url: http://arxiv.org/abs/2310.03283v1
- Date: Thu, 5 Oct 2023 03:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:30:08.034355
- Title: A Formalism and Approach for Improving Robustness of Large Language
Models Using Risk-Adjusted Confidence Scores
- Title(参考訳): リスク適応信頼スコアを用いた大規模言語モデルのロバスト性向上のための形式主義とアプローチ
- Authors: Ke Shen and Mayank Kejriwal
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理(NLP)において驚くべきマイルストーンを達成した
優れた性能にもかかわらず、モデルには重要なリスクが伴うことが知られている。
意思決定リスクと複合リスクという,2つの異なるタイプのリスクを定義し,形式化する。
- 参考スコア(独自算出の注目度): 4.043005183192123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT, have achieved impressive
milestones in natural language processing (NLP). Despite their impressive
performance, the models are known to pose important risks. As these models are
deployed in real-world applications, a systematic understanding of different
risks posed by these models on tasks such as natural language inference (NLI),
is much needed. In this paper, we define and formalize two distinct types of
risk: decision risk and composite risk. We also propose a risk-centric
evaluation framework, and four novel metrics, for assessing LLMs on these risks
in both in-domain and out-of-domain settings. Finally, we propose a
risk-adjusted calibration method called DwD for helping LLMs minimize these
risks in an overall NLI architecture. Detailed experiments, using four NLI
benchmarks, three baselines and two LLMs, including ChatGPT, show both the
practical utility of the evaluation framework, and the efficacy of DwD in
reducing decision and composite risk. For instance, when using DwD, an
underlying LLM is able to address an extra 20.1% of low-risk inference tasks
(but which the LLM erroneously deems high-risk without risk adjustment) and
skip a further 19.8% of high-risk tasks, which would have been answered
incorrectly.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、自然言語処理(NLP)において驚くべきマイルストーンを達成した。
優れた性能にもかかわらず、モデルには重要なリスクが伴うことが知られている。
これらのモデルが現実世界のアプリケーションにデプロイされるため、自然言語推論(nli)のようなタスクでこれらのモデルによってもたらされるさまざまなリスクを体系的に理解する必要がある。
本稿では,意思決定リスクと複合リスクの2つの異なるタイプのリスクを定義し,形式化する。
また,リスク中心評価フレームワークと4つの新しい指標を提案し,これらのリスクをドメイン内およびドメイン外の両方で評価する。
最後に,これらのリスクを最小限に抑えるために,dwdと呼ばれるリスク調整型キャリブレーション手法を提案する。
4つのNLIベンチマーク、3つのベースライン、2つのLLM(ChatGPTを含む)を用いた詳細な実験は、評価フレームワークの実用性とDwDの有効性の両方を示している。
例えば、dwdを使用する場合、基礎となるllmは20.1%の低リスク推論タスク(ただし、llmはリスク調整なしに高リスクを誤認している)を処理でき、さらに19.8%の高リスクタスクをスキップすることができる。
関連論文リスト
- Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - C-RAG: Certified Generation Risks for Retrieval-Augmented Language
Models [59.706532872634874]
RAGモデルの生成リスクを認証する最初のフレームワークであるC-RAGを提案する。
具体的には、RAGモデルに対して共形リスク分析を行い、生成リスクの上限以上の信頼度を認定する。
検索モデルと変圧器の品質が非自明な場合, RAG は単一の LLM よりも低い共形生成リスクを達成できることを示す。
論文 参考訳(メタデータ) (2024-02-05T16:46:16Z) - R-Judge: Benchmarking Safety Risk Awareness for LLM Agents [28.80884032823204]
大規模言語モデル(LLM)は、現実世界のアプリケーション間で自律的にタスクを完了させる大きな可能性を示している。
本研究は, LLMエージェントの行動安全性を, 多様な環境下でベンチマークする上で必要となる課題に対処する。
R-Judgeは,エージェント間相互作用の記録から安全リスクを判断・同定する上で,LLMの熟練度を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-01-18T14:40:46Z) - Walking a Tightrope -- Evaluating Large Language Models in High-Risk
Domains [15.320563604087246]
リスクの高いドメインは、正確で安全な応答を提供するために言語モデルを必要とするユニークな課題を提起する。
大規模言語モデル(LLM)が大成功を収めたにもかかわらず、ハイリスク領域でのそれらのパフォーマンスはいまだに不明である。
論文 参考訳(メタデータ) (2023-11-25T08:58:07Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value
Factorization [51.386963525376395]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - Safe Deployment for Counterfactual Learning to Rank with Exposure-Based
Risk Minimization [63.93275508300137]
本稿では,安全な配置を理論的に保証する新たなリスク認識型対実学習ランク法を提案する。
提案手法の有効性を実験的に検証し,データが少ない場合の動作不良の早期回避に有効であることを示す。
論文 参考訳(メタデータ) (2023-04-26T15:54:23Z) - Deep Learning for Systemic Risk Measures [3.274367403737527]
本研究の目的は,システム的リスク対策のための新しい方法論の枠組みを検討することである。
この新たな枠組みの下で、システム的リスク対策は、集約されたシステムを保護する最小限の現金として解釈できる。
ディープラーニングは、金融モデリングやリスク管理においてますます注目を集めている。
論文 参考訳(メタデータ) (2022-07-02T05:01:19Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。