論文の概要: Moving Faster and Reducing Risk: Using LLMs in Release Deployment
- arxiv url: http://arxiv.org/abs/2410.06351v1
- Date: Tue, 8 Oct 2024 20:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 06:19:07.013893
- Title: Moving Faster and Reducing Risk: Using LLMs in Release Deployment
- Title(参考訳): より速く、リスクを減らす - リリースデプロイメントでLLMを使用する
- Authors: Rui Abreu, Vijayaraghavan Murali, Peter C Rigby, Chandra Maddila, Weiyan Sun, Jun Ge, Kaavya Chinniah, Audris Mockus, Megh Mehta, Nachiappan Nagappan,
- Abstract要約: 差分リスクスコアのモデルを開発し、差分がエンドユーザに深刻な障害を引き起こす確率を決定する。
ゲイティングなし(緑)、週末ゲーティングなし(黄色)、エンドユーザーへの中程度の影響(黄色)、エンドユーザーへの高い影響(赤)の4種類があります。
- 参考スコア(独自算出の注目度): 14.576013529364635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Release engineering has traditionally focused on continuously delivering features and bug fixes to users, but at a certain scale, it becomes impossible for a release engineering team to determine what should be released. At Meta's scale, the responsibility appropriately and necessarily falls back on the engineer writing and reviewing the code. To address this challenge, we developed models of diff risk scores (DRS) to determine how likely a diff is to cause a SEV, i.e., a severe fault that impacts end-users. Assuming that SEVs are only caused by diffs, a naive model could randomly gate X% of diffs from landing, which would automatically catch X% of SEVs on average. However, we aimed to build a model that can capture Y% of SEVs by gating X% of diffs, where Y >> X. By training the model on historical data on diffs that have caused SEVs in the past, we can predict the riskiness of an outgoing diff to cause a SEV. Diffs that are beyond a particular threshold of risk can then be gated. We have four types of gating: no gating (green), weekend gating (weekend), medium impact on end-users (yellow), and high impact on end-users (red). The input parameter for our models is the level of gating, and the outcome measure is the number of captured SEVs. Our research approaches include a logistic regression model, a BERT-based model, and generative LLMs. Our baseline regression model captures 18.7%, 27.9%, and 84.6% of SEVs while respectively gating the top 5% (weekend), 10% (yellow), and 50% (red) of risky diffs. The BERT-based model, StarBERT, only captures 0.61x, 0.85x, and 0.81x as many SEVs as the logistic regression for the weekend, yellow, and red gating zones, respectively. The generative LLMs, iCodeLlama-34B and iDiffLlama-13B, when risk-aligned, capture more SEVs than the logistic regression model in production: 1.40x, 1.52x, 1.05x, respectively.
- Abstract(参考訳): リリースエンジニアリングは伝統的に、機能やバグフィックスをユーザに継続的に提供することに重点を置いてきたが、あるスケールでは、リリースエンジニアリングチームがリリースすべきものを決定することは不可能になる。
Metaのスケールでは、責任は適切に、そして必然的に、エンジニアがコードを書いてレビューすることに帰着する。
この課題に対処するため、私たちは差動リスクスコア(DRS)のモデルを開発し、差動リスクスコアがSEVの原因となる可能性、すなわちエンドユーザに影響を与える深刻な欠陥を判断した。
SEVが差分によってのみ引き起こされると仮定すると、単純モデルは着陸からX%の差分をランダムにゲートし、平均でSEVのX%を自動的にキャッチする。
しかし、我々は、過去にSEVを発生させた差分に関する歴史的データに基づいてモデルをトレーニングすることで、排出する差分がSEVの原因となるリスクを予測できるモデルを構築することを目指していた。
特定のリスクしきい値を超えているディフを排除できる。
ゲイティング(グリーン)なし、週末のゲーティング(ウィークエンド)、エンドユーザーへの中程度の影響(イエロー)、エンドユーザーへの大きな影響(赤)の4種類があります。
我々のモデルに対する入力パラメータはゲーティングのレベルであり、その結果は捕捉されたSEVの数である。
本研究のアプローチは,ロジスティック回帰モデル,BERTモデル,ジェネレーティブLLMなどである。
ベースライン回帰モデルは、SEVの18.7%、27.9%、84.6%を捉え、それぞれ上位5%(週末)、10%(黄)、50%(赤)の危険差を計上している。
BERTベースのモデルであるStarBERTは、週末、黄色、赤のゲーティングゾーンのロジスティック回帰として、多くのSEVの0.61倍、0.85倍、0.81倍しか捉えていない。
生成型LLMのiCodeLlama-34BとiDiffLlama-13Bは、リスクアライメントを行うと、それぞれ1.40x、1.22x、1.05xのロジスティック回帰モデルよりも多くのSEVをキャプチャする。
関連論文リスト
- TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文 参考訳(メタデータ) (2024-09-09T03:02:16Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Beyond the Norms: Detecting Prediction Errors in Regression Models [26.178065248948773]
本稿では,回帰アルゴリズムにおける信頼できない振る舞いを検出するという課題に取り組む。
回帰器の出力が特定の不一致(または誤り)を超えた場合、回帰における不確実性の概念を導入する。
複数の回帰タスクに対する誤り検出の実証的改善を示す。
論文 参考訳(メタデータ) (2024-06-11T05:51:44Z) - Corruption-tolerant Algorithms for Generalized Linear Models [4.127284659744835]
SVAM(Sequential Variance-Altered MLE)は、汎用線形モデルを学ぶための統一的なフレームワークである。
SVAMは、独立した関心を持つ可能性のある、新しい分散還元技術に基づいている。
論文 参考訳(メタデータ) (2022-12-11T07:08:02Z) - Human Pose Regression with Residual Log-likelihood Estimation [48.30425850653223]
本稿では,Residual Log-likelihood Estimation (RLE) を用いた新たな回帰パラダイムを提案する。
RLEは、トレーニングプロセスを容易にするために、未参照の基盤となる分布ではなく、分布の変化を学習する。
従来の回帰パラダイムと比較して、RLEによる回帰はテスト時間オーバーヘッドを伴わずに、MSCOCOに12.4mAPの改善をもたらす。
論文 参考訳(メタデータ) (2021-07-23T15:06:31Z) - Learning Probabilistic Ordinal Embeddings for Uncertainty-Aware
Regression [91.3373131262391]
不確かさが唯一の確実性である。
伝統的に、直接回帰定式化を考慮し、ある確率分布の族に出力空間を変更することによって不確実性をモデル化する。
現在のレグレッション技術における不確実性をモデル化する方法は、未解決の問題である。
論文 参考訳(メタデータ) (2021-03-25T06:56:09Z) - Variational Bayesian Unlearning [54.26984662139516]
本研究では, ベイズモデルの学習を, 消去する訓練データの小さな部分集合から, ほぼ非学習する問題について検討する。
消去されたデータから完全に学習されていないデータと、過去の信念を完全に忘れていないデータとをトレードオフする証拠を最小化するのと等価であることを示す。
VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にしている。
論文 参考訳(メタデータ) (2020-10-24T11:53:00Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - Probabilistic Regression for Visual Tracking [193.05958682821444]
本稿では,確率論的回帰定式化を提案し,追跡に適用する。
入力画像が与えられたターゲット状態の条件付き確率密度を予測する。
トラッカーは6つのデータセットに新しい最先端のデータをセットし、LaSOTでは59.8%、TrackingNetでは75.8%のAUCを達成した。
論文 参考訳(メタデータ) (2020-03-27T17:58:37Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。