Fugu-MT 論文翻訳(概要): Prompt Risk Control: A Rigorous Framework for Responsible Deployment of Large Language Models

論文の概要: Prompt Risk Control: A Rigorous Framework for Responsible Deployment of Large Language Models

arxiv url: http://arxiv.org/abs/2311.13628v1
Date: Wed, 22 Nov 2023 18:50:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 01:33:22.899884
Title: Prompt Risk Control: A Rigorous Framework for Responsible Deployment of Large Language Models
Title（参考訳）: Prompt Risk Control: 大規模言語モデルのデプロイに責任のある厳格なフレームワーク
Authors: Thomas P. Zollo, Todd Morrill, Zhun Deng, Jake C. Snell, Toniann Pitassi, Richard Zemel
Abstract要約: 本稿では,情報的リスク対策の家族に対する厳密な上限に基づくプロンプト選択のためのフレームワークであるPrompt Risk Controlを提案する。最悪の応答を測定する量を含む、さまざまなメトリクスセットのバウンダリを生成する方法を提供しています。オープンエンドチャット、医療質問の要約、コード生成といったアプリケーションの実験では、このようなフレームワークが責任あるデプロイメントを促進する方法が強調されている。
参考スコア（独自算出の注目度）: 15.319277333431318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent explosion in the capabilities of large language models has led to a wave of interest in how best to prompt a model to perform a given task. While it may be tempting to simply choose a prompt based on average performance on a validation set, this can lead to a deployment where unexpectedly poor responses are generated, especially for the worst-off users. To mitigate this prospect, we propose Prompt Risk Control, a lightweight framework for selecting a prompt based on rigorous upper bounds on families of informative risk measures. We offer methods for producing bounds on a diverse set of metrics, including quantities that measure worst-case responses and disparities in generation quality across the population of users. In addition, we extend the underlying statistical bounding techniques to accommodate the possibility of distribution shifts in deployment. Experiments on applications such as open-ended chat, medical question summarization, and code generation highlight how such a framework can foster responsible deployment by reducing the risk of the worst outcomes.
Abstract（参考訳）: 大規模言語モデルの能力の最近の爆発は、モデルに与えられたタスクを実行するよう促す最善の方法への関心の波につながった。検証セットの平均パフォーマンスに基づいてプロンプトを単に選択したいという誘惑があるかも知れませんが、これは特に最悪のユーザに対して、予期せぬほど悪いレスポンスが生成されるデプロイメントにつながる可能性があります。そこで本研究では,情報的リスク対策の家族に対する厳密な上限に基づくプロンプトを選択するための軽量なフレームワークであるprompate risk controlを提案する。我々は、利用者の集団間で最悪のケースの応答や世代品質のばらつきを測定する量を含む、さまざまな指標で境界を生成する方法を提供する。さらに,デプロイメントにおける分散シフトの可能性に対応するために,基礎となる統計境界技術を拡張する。オープンエンドチャット、医療質問の要約、コード生成といったアプリケーションの実験では、最悪の結果のリスクを減らすことで、このようなフレームワークが責任あるデプロイメントを促進する方法が強調されている。

関連論文リスト

SafeMobile: Chain-level Jailbreak Detection and Automated Evaluation for Multimodal Mobile Agents [58.21223208538351]
本研究は,モバイルマルチモーダルエージェントを取り巻くセキュリティ問題について考察する。行動シーケンス情報を組み込んだリスク識別機構の構築を試みる。また、大規模言語モデルに基づく自動アセスメントスキームも設計している。
論文参考訳（メタデータ） (2025-07-01T15:10:00Z)
COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Risk-aware Direct Preference Optimization under Nested Risk Measure [23.336246526648374]
Ra-DPO(Ra-Aware Direct Preference Optimization)は、ネストしたリスク対策を取り入れた新しいアプローチである。 3つのオープンソースデータセットに対する実験結果は、アライメント性能とモデルドリフトのバランスをとる上で、提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2025-05-26T08:01:37Z)
A Proposal for Evaluating the Operational Risk for ChatBots based on Large Language Models [39.58317527488534]
3つの主要なステークホルダーに対する潜在的な脅威を同時に評価する新しいリスク評価指標を提案する。メトリクスを検証するために、脆弱性テスト用のオープンソースのフレームワークであるGarakを活用しています。その結果、セキュアで信頼性の高いAI駆動会話システムの運用における多次元リスクアセスメントの重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-05-07T20:26:45Z)
Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文参考訳（メタデータ） (2025-03-07T10:55:12Z)
Conformal Tail Risk Control for Large Language Model Alignment [9.69785515652571]
テールイベントの定量化プロセスを自動化するため、汎用的なスコアリングモデルが作成されている。この現象は、各スコアリングメカニズム間の潜在的な人間と機械のミスアライメントをもたらす。ブラックボックスモデルのための軽量なキャリブレーションフレームワークを提案し,人間と機械のアライメントを保証可能な保証で保証する。
論文参考訳（メタデータ） (2025-02-27T17:10:54Z)
Forecasting Rare Language Model Behaviors [20.712406244928832]
提案手法は,評価中のテストよりも,桁違いに多くのクエリに対して潜在的なリスクを予測できる手法である。我々の予測は、最大3桁のクエリボリュームで、様々な望ましくない振る舞いの出現を予測することができる。私たちの作業により、モデル開発者は大規模なデプロイメント中に現れる前に、稀な障害を積極的に予測し、パッチを当てることができます。
論文参考訳（メタデータ） (2025-02-24T03:16:15Z)
Improved Compression Bounds for Scenario Decision Making [0.7673339435080445]
我々は、不確実性のサンプルを描画し、そのサンプルに基づいて意思決定を行うことにより、不確実な環境での意思決定方法を示す。確率保証は、障害のリスクが与えられた最大許容値を超える決定につながるシナリオの集合をサンプリングする確率に縛られる。我々は,問題に対するより強い仮定を必要とせず,既存の問題を改善する新たな限界を提案する。
論文参考訳（メタデータ） (2025-01-15T15:53:34Z)
On the Privacy Risk of In-context Learning [36.633860818454984]
我々は、プロンプトモデルがプロンプト内で使用されるデータに対して、重大なプライバシーリスクを示すことを示した。また、トリガーモデルのプライバシリスクが、同じユーティリティレベルで微調整されたモデルを超えることも観察します。
論文参考訳（メタデータ） (2024-11-15T17:11:42Z)
Data-driven decision-making under uncertainty with entropic risk measure [5.407319151576265]
エントロピーリスク尺度は、不確実な損失に関連する尾のリスクを考慮に入れた高い意思決定に広く用いられている。経験的エントロピーリスク推定器を劣化させるため, 強く一貫したブートストラップ手法を提案する。検証性能のバイアスが補正されない場合,クロスバリデーション手法は,保険業者のアウト・オブ・サンプルリスクを著しく高める可能性があることを示す。
論文参考訳（メタデータ） (2024-09-30T04:02:52Z)
Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文参考訳（メタデータ） (2024-09-24T14:52:14Z)
Risks and NLP Design: A Case Study on Procedural Document QA [52.557503571760215]
より具体的なアプリケーションやユーザに対して分析を専門化すれば,ユーザに対するリスクや害の明確な評価が可能になる,と我々は主張する。リスク指向のエラー分析を行い、リスクの低減とパフォーマンスの向上を図り、将来のシステムの設計を通知する。
論文参考訳（メタデータ） (2024-08-16T17:23:43Z)
Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文参考訳（メタデータ） (2024-03-28T17:28:06Z)
DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。 6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文参考訳（メタデータ） (2024-03-01T05:28:06Z)
Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。グループDROフレームワークをQ-Diversityを提案して再構築する。インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文参考訳（メタデータ） (2023-05-20T07:02:27Z)
R-U-SURE? Uncertainty-Aware Code Suggestions By Maximizing Utility Across Random User Intents [14.455036827804541]
大規模言語モデルは、コードのような構造化されたテキストを予測する上で印象的な結果を示すが、一般的にはエラーや幻覚を出力に導入する。ランダム化ユーティリティ駆動型不確実領域合成(R-U-SURE)を提案する。 R-U-SUREは、ゴール条件付きユーティリティの意思決定理論モデルに基づく不確実性を考慮した提案を構築するためのアプローチである。
論文参考訳（メタデータ） (2023-03-01T18:46:40Z)
Sample-Based Bounds for Coherent Risk Measures: Applications to Policy Synthesis and Verification [32.9142708692264]
本稿では,リスク認識の検証と政策合成に関するいくつかの問題に対処することを目的とする。まず,確率変数分布のサブセットを評価するサンプルベース手法を提案する。第二に、決定空間の大部分を上回る問題に対する解を決定するロボットベースの手法を開発する。
論文参考訳（メタデータ） (2022-04-21T01:06:10Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Fast Risk Assessment for Autonomous Vehicles Using Learned Models of Agent Futures [10.358493658420173]
本稿では,自動走行車における軌道のリスクを評価するために,高速な非サンプリング方式を提案する。提案手法はガウス混合モデルと非ガウス混合モデルの両方を含む不確実な予測に対する幅広い表現に対処する。提案手法は、ArgoverseデータセットとCARLAデータセットでトレーニングされたプロパゲートからの現実的な予測に基づいて実証される。
論文参考訳（メタデータ） (2020-05-27T16:16:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。