Fugu-MT 論文翻訳(概要): Conformal Tail Risk Control for Large Language Model Alignment

論文の概要: Conformal Tail Risk Control for Large Language Model Alignment

arxiv url: http://arxiv.org/abs/2502.20285v1
Date: Thu, 27 Feb 2025 17:10:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:47.15546
Title: Conformal Tail Risk Control for Large Language Model Alignment
Title（参考訳）: 大規模言語モデルアライメントのための等角的土壌リスク制御
Authors: Catherine Yu-Chi Chen, Jingyan Shen, Zhun Deng, Lihua Lei,
Abstract要約: テールイベントの定量化プロセスを自動化するため、汎用的なスコアリングモデルが作成されている。この現象は、各スコアリングメカニズム間の潜在的な人間と機械のミスアライメントをもたらす。ブラックボックスモデルのための軽量なキャリブレーションフレームワークを提案し,人間と機械のアライメントを保証可能な保証で保証する。
参考スコア（独自算出の注目度）: 9.69785515652571
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent developments in large language models (LLMs) have led to their widespread usage for various tasks. The prevalence of LLMs in society implores the assurance on the reliability of their performance. In particular, risk-sensitive applications demand meticulous attention to unexpectedly poor outcomes, i.e., tail events, for instance, toxic answers, humiliating language, and offensive outputs. Due to the costly nature of acquiring human annotations, general-purpose scoring models have been created to automate the process of quantifying these tail events. This phenomenon introduces potential human-machine misalignment between the respective scoring mechanisms. In this work, we present a lightweight calibration framework for blackbox models that ensures the alignment of humans and machines with provable guarantees. Our framework provides a rigorous approach to controlling any distortion risk measure that is characterized by a weighted average of quantiles of the loss incurred by the LLM with high confidence. The theoretical foundation of our method relies on the connection between conformal risk control and a traditional family of statistics, i.e., L-statistics. To demonstrate the utility of our framework, we conduct comprehensive experiments that address the issue of human-machine misalignment.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の発展は、様々なタスクに広く使われるようになった。社会におけるLLMの普及は、その性能の信頼性の保証を示唆している。特に、危険に敏感なアプリケーションは予期せぬ結果、例えば尾の出来事、例えば有毒な答え、屈辱的な言語、攻撃的なアウトプットに細心の注意を要する。人間のアノテーションを取得するコストのかかる性質のため、これらのテールイベントを定量化するプロセスを自動化するために汎用的なスコアリングモデルが作成されている。この現象は、各スコアリングメカニズム間の潜在的な人間と機械のミスアライメントをもたらす。本研究では,人間と機械のアライメントを保証するブラックボックスモデルのための軽量なキャリブレーションフレームワークを提案する。我々の枠組みは, LLMが生み出す損失の量的平均値の重み付けによって特徴付けられる歪みリスク尺度を制御するための厳密なアプローチを提供する。この手法の理論的基礎は、共形リスク制御と従来の統計学、すなわちL統計学との関連性に依存している。フレームワークの有用性を実証するため,人間と機械のミスアライメントの問題に対処する包括的実験を行った。

関連論文リスト

Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-04-24T15:39:46Z)
Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-04-10T16:00:59Z)
Epistemic Integrity in Large Language Models [11.173637560124828]
大規模な言語モデルは情報ソースにますます頼っているが、偽りや誤解を招く声明の妥当性はユーザーや社会に高いリスクをもたらす。本稿では,モデルの言語的主張が真の内部的確証を反映しないという,誤校正の重大な問題に直面する。大規模言語モデルの言語的アサーション性を評価するための,新しい人的ミスアライメント評価と新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-10T17:10:13Z)
Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文参考訳（メタデータ） (2024-07-04T22:22:09Z)
Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。 ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文参考訳（メタデータ） (2024-06-20T15:12:27Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Exploiting LLM Quantization [6.506984021742173]
量子化は、大きな言語モデルのメモリ使用量を減らす技術である。本研究では, 広く利用されている量子化法を用いて, 有害な量子化LDMを生成できることを述べる。実際には、敵はHugging FaceのようなLLMコミュニティハブで、結果の完全精度モデルをホストすることができた。
論文参考訳（メタデータ） (2024-05-28T12:51:01Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文参考訳（メタデータ） (2024-02-07T21:58:40Z)
Statistical inference for individual fairness [24.622418924551315]
機械学習モデルにおける個々人の公平性の違反を検出する問題に注目する。我々は,対向コスト関数のための一連の推論ツールを開発した。実世界のケーススタディでツールの有用性を実証します。
論文参考訳（メタデータ） (2021-03-30T22:49:25Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)
An Uncertainty-based Human-in-the-loop System for Industrial Tool Wear Analysis [68.8204255655161]
人間のループシステムにおけるモンテカルロのドロップアウトに基づく不確実性対策により,システムの透明性と性能が向上することを示す。シミュレーション研究により、不確実性に基づく「ループ内人間システム」は、様々なレベルの人間の関与に対する性能を高めることが示されている。
論文参考訳（メタデータ） (2020-07-14T15:47:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。