論文の概要: Conformal Tail Risk Control for Large Language Model Alignment
- arxiv url: http://arxiv.org/abs/2502.20285v1
- Date: Thu, 27 Feb 2025 17:10:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:59:00.751695
- Title: Conformal Tail Risk Control for Large Language Model Alignment
- Title(参考訳): 大規模言語モデルアライメントのための等角的土壌リスク制御
- Authors: Catherine Yu-Chi Chen, Jingyan Shen, Zhun Deng, Lihua Lei,
- Abstract要約: テールイベントの定量化プロセスを自動化するため、汎用的なスコアリングモデルが作成されている。
この現象は、各スコアリングメカニズム間の潜在的な人間と機械のミスアライメントをもたらす。
ブラックボックスモデルのための軽量なキャリブレーションフレームワークを提案し,人間と機械のアライメントを保証可能な保証で保証する。
- 参考スコア(独自算出の注目度): 9.69785515652571
- License:
- Abstract: Recent developments in large language models (LLMs) have led to their widespread usage for various tasks. The prevalence of LLMs in society implores the assurance on the reliability of their performance. In particular, risk-sensitive applications demand meticulous attention to unexpectedly poor outcomes, i.e., tail events, for instance, toxic answers, humiliating language, and offensive outputs. Due to the costly nature of acquiring human annotations, general-purpose scoring models have been created to automate the process of quantifying these tail events. This phenomenon introduces potential human-machine misalignment between the respective scoring mechanisms. In this work, we present a lightweight calibration framework for blackbox models that ensures the alignment of humans and machines with provable guarantees. Our framework provides a rigorous approach to controlling any distortion risk measure that is characterized by a weighted average of quantiles of the loss incurred by the LLM with high confidence. The theoretical foundation of our method relies on the connection between conformal risk control and a traditional family of statistics, i.e., L-statistics. To demonstrate the utility of our framework, we conduct comprehensive experiments that address the issue of human-machine misalignment.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の発展は、様々なタスクに広く使われるようになった。
社会におけるLLMの普及は、その性能の信頼性の保証を示唆している。
特に、危険に敏感なアプリケーションは予期せぬ結果、例えば尾の出来事、例えば有毒な答え、屈辱的な言語、攻撃的なアウトプットに細心の注意を要する。
人間のアノテーションを取得するコストのかかる性質のため、これらのテールイベントを定量化するプロセスを自動化するために汎用的なスコアリングモデルが作成されている。
この現象は、各スコアリングメカニズム間の潜在的な人間と機械のミスアライメントをもたらす。
本研究では,人間と機械のアライメントを保証するブラックボックスモデルのための軽量なキャリブレーションフレームワークを提案する。
我々の枠組みは, LLMが生み出す損失の量的平均値の重み付けによって特徴付けられる歪みリスク尺度を制御するための厳密なアプローチを提供する。
この手法の理論的基礎は、共形リスク制御と従来の統計学、すなわちL統計学との関連性に依存している。
フレームワークの有用性を実証するため,人間と機械のミスアライメントの問題に対処する包括的実験を行った。
関連論文リスト
- Epistemic Integrity in Large Language Models [11.173637560124828]
大規模な言語モデルは情報ソースにますます頼っているが、偽りや誤解を招く声明の妥当性はユーザーや社会に高いリスクをもたらす。
本稿では,モデルの言語的主張が真の内部的確証を反映しないという,誤校正の重大な問題に直面する。
大規模言語モデルの言語的アサーション性を評価するための,新しい人的ミスアライメント評価と新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-10T17:10:13Z) - Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Exploiting LLM Quantization [6.506984021742173]
量子化は、大きな言語モデルのメモリ使用量を減らす技術である。
本研究では, 広く利用されている量子化法を用いて, 有害な量子化LDMを生成できることを述べる。
実際には、敵はHugging FaceのようなLLMコミュニティハブで、結果の完全精度モデルをホストすることができた。
論文 参考訳(メタデータ) (2024-05-28T12:51:01Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Selecting Models based on the Risk of Damage Caused by Adversarial
Attacks [2.969705152497174]
規制、法的責任、社会的懸念は、安全およびセキュリティクリティカルなアプリケーションにおけるAIの採用に挑戦する。
重要な懸念の1つは、敵が検出されずにモデル予測を操作することで害を引き起こす可能性があることである。
本稿では,敵攻撃による被害の確率をモデル化し,統計的に推定する手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T10:24:38Z) - Statistical inference for individual fairness [24.622418924551315]
機械学習モデルにおける個々人の公平性の違反を検出する問題に注目する。
我々は,対向コスト関数のための一連の推論ツールを開発した。
実世界のケーススタディでツールの有用性を実証します。
論文 参考訳(メタデータ) (2021-03-30T22:49:25Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - An Uncertainty-based Human-in-the-loop System for Industrial Tool Wear
Analysis [68.8204255655161]
人間のループシステムにおけるモンテカルロのドロップアウトに基づく不確実性対策により,システムの透明性と性能が向上することを示す。
シミュレーション研究により、不確実性に基づく「ループ内人間システム」は、様々なレベルの人間の関与に対する性能を高めることが示されている。
論文 参考訳(メタデータ) (2020-07-14T15:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。