Fugu-MT 論文翻訳(概要): Site Reliability Engineering: Application of Item Response Theory to Application Deployment Practices and Controls

論文の概要: Site Reliability Engineering: Application of Item Response Theory to Application Deployment Practices and Controls

arxiv url: http://arxiv.org/abs/2008.06717v1
Date: Sat, 15 Aug 2020 13:33:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 21:18:00.514419
Title: Site Reliability Engineering: Application of Item Response Theory to Application Deployment Practices and Controls
Title（参考訳）: サイトの信頼性工学: 項目応答理論のアプリケーションのデプロイ実践と制御への応用
Authors: Kiran Mahesh ND
Abstract要約: 本研究は,ディコトクス項目応答理論モデルを用いて,アプリケーション配置スコア推定と呼ばれる新たな客観的指標を提案する。このスコアは、顧客向け環境にデプロイされた各アプリケーションバージョンの改善傾向を評価するために使用される。また、デプロイメントガイドラインとコントロールの各領域におけるアプリケーションのデプロイ毎の改善範囲を特定する。最後に、これらの現代のデプロイメントガイドラインとコントロールの有効性を評価するのに役立つ、デプロイメントインデックスと呼ばれる新しい指標を定義します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reliability of an application or solution in production environment is one of the fundamental features where every SRE team is critically focused upon. At the same time achieving extreme reliability comes with the cost which include but not limited to slow pace of new feature deployments, operations cost and opportunity cost. One such earlier effort in giving an objective metric to strike the fine balance between acceptable reliability and product velocity is error budget and its associated policy. There are also contemporary deployment guidelines and controls per organization to ascertain the reliability of an application deployment version into customer facing or production environments. This work proposes new objective metrics called Application Deployment Score estimated using dichotomous Item Response Theory model. This score is used to assess the improvement trend of each application version deployed into customer facing environment, identify the improvement scope for each application deployment in each area of deployment guidelines and controls, adjust the error budget i.e. soft error budget of a interdependent application in application mesh by giving soft collective responsibility and finally defines a new metric called deployment index which helps to assess the effectiveness of these contemporary deployment guidelines and controls in upholding the agreed SLOs of the application in customer facing environments. This study opens a new field of research in developing new underlying latent indexes (i.e. new objective metrics) in SRE and DevOps space.
Abstract（参考訳）: 実運用環境におけるアプリケーションやソリューションの信頼性は、すべてのSREチームが重要に集中する基本的な機能のひとつです。同時に、極端な信頼性を達成するには、新機能のデプロイの遅いペース、運用コスト、機会コストに制限されないコストが伴う。許容可能な信頼性と製品ベロシティの微妙なバランスを打つ客観的な指標を与えるという初期の取り組みは、エラー予算とその関連するポリシーです。アプリケーションデプロイメントバージョンを顧客や運用環境にデプロイする際の信頼性を確認するため、組織毎に、現代的なデプロイメントガイドラインやコントロールも用意されている。本研究は,dichotomous item response theoryモデルを用いて推定したアプリケーションデプロイメントスコアと呼ばれる新しい客観的指標を提案する。 This score is used to assess the improvement trend of each application version deployed into customer facing environment, identify the improvement scope for each application deployment in each area of deployment guidelines and controls, adjust the error budget i.e. soft error budget of a interdependent application in application mesh by giving soft collective responsibility and finally defines a new metric called deployment index which helps to assess the effectiveness of these contemporary deployment guidelines and controls in upholding the agreed SLOs of the application in customer facing environments. この研究は、SREとDevOpsの分野で、新しい潜在指標(すなわち、新しい客観的指標)を開発するための新しい研究分野を開く。

関連論文リスト

Adaptive Dual-Weighting Framework for Federated Learning via Out-of-Distribution Detection [53.45696787935487]
Federated Learning (FL)は、大規模分散サービスノード間の協調的なモデルトレーニングを可能にする。実世界のサービス指向デプロイメントでは、異種ユーザ、デバイス、アプリケーションシナリオによって生成されたデータは本質的にIIDではない。 FLoodは、オフ・オブ・ディストリビューション(OOD)検出にインスパイアされた新しいFLフレームワークである。
論文参考訳（メタデータ） (2026-02-01T05:54:59Z)
OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。 OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文参考訳（メタデータ） (2025-10-12T13:46:28Z)
Zero-Shot Transferable Solution Method for Parametric Optimal Control Problems [2.365391421959969]
本稿では,関数エンコーダ (FE) ポリシを用いた最適制御問題の伝達可能な解を提案する。提案手法は,制御ポリシ空間にまたがる再利用可能な神経基盤関数の集合を学習する。様々な力学,次元,コスト構造に関する数値実験により,本手法が最小限のオーバーヘッドで最適に近い性能を実現することを示す。
論文参考訳（メタデータ） (2025-09-22T20:38:05Z)
Bridging the Mobile Trust Gap: A Zero Trust Framework for Consumer-Facing Applications [51.56484100374058]
本稿では,信頼できないユーザ制御環境で動作するモバイルアプリケーションを対象としたZero Trustモデルを提案する。デザインサイエンスの方法論を用いて、この研究は、実行時の信頼の強制をサポートする6つのピラーフレームワークを導入した。提案したモデルは,デプロイ前コントロールを越えてモバイルアプリケーションをセキュアにするための,実用的で標準に準拠したアプローチを提供する。
論文参考訳（メタデータ） (2025-08-20T18:42:36Z)
Cost-Optimal Active AI Model Evaluation [71.2069549142394]
生成AIシステムの開発には、継続的な評価、データ取得、アノテーションが必要である。我々は、安価だがしばしば不正確で弱いレーダの使用を積極的にバランスさせる新しいコスト認識手法を開発した。我々は、弱者と強者の間で所定のアノテーション予算を割り当てるためのコスト最適化政策のファミリーを導出する。
論文参考訳（メタデータ） (2025-06-09T17:14:41Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Automated Analysis of Pricings in SaaS-based Information Systems [42.8610435437513]
本稿では,これらの価格管理タスクを部分的にあるいは完全に支援する7つの分析操作を提案する。提案手法はMiniZincを使った参照フレームワークで実装され、150以上の価格モデルでテストされ、ベンチマークの35の価格でエラーを特定する。
論文参考訳（メタデータ） (2025-03-27T12:36:57Z)
Fast or Better? Balancing Accuracy and Cost in Retrieval-Augmented Generation with Flexible User Control [52.405085773954596]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル幻覚を緩和するための強力なアプローチとして登場した。既存のRAGフレームワークは、しばしば無差別に検索を適用し、非効率な再検索につながる。本稿では,精度・コストのトレードオフを動的に調整できる新しいユーザ制御可能なRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:56:20Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
A CMDP-within-online framework for Meta-Safe Reinforcement Learning [23.57318558833378]
CMDP-within-onlineフレームワークを用いたメタセーフ強化学習(Meta-SRL)の課題について検討する。我々は,勾配に基づくメタ学習を用いて,目に見えない(最適性ギャップ)と制約違反に対する平均的後悔境界を求める。本稿では,タスク内最適性ギャップと制約違反の上限において,不正確なオンライン学習を行うメタアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-26T15:28:42Z)
Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。学習シナリオにおける同値性に基づく単一のフレームワークを提案する。我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文参考訳（メタデータ） (2024-05-09T12:52:22Z)
Assessing and Verifying Task Utility in LLM-Powered Applications [28.41607905656699]
大規模言語モデル(LLM)は、エージェント間のコラボレーションを促進し、人間の日常的なタスクを支援するアプリケーションの増加につながっている。このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションのユーティリティを検証する必要性を強調している。 AgentEvalは,アプリケーション固有の目的に合わせた一連の基準を自動提案することで,ユーティリティ検証プロセスを簡素化する新しいフレームワークである。
論文参考訳（メタデータ） (2024-05-03T15:26:27Z)
Data-Driven Goal Recognition Design for General Behavioral Agents [14.750023724230774]
汎用行動モデルを持つエージェントを考慮に入れた,目標認識設計のためのデータ駆動型アプローチを提案する。本稿では,様々な制約を満たす勾配に基づく最適化フレームワークを提案し,意思決定環境を最適化する。
論文参考訳（メタデータ） (2024-04-03T20:38:22Z)
Towards better Human-Agent Alignment: Assessing Task Utility in LLM-Powered Applications [37.047117782796064]
AgentEvalはユーティリティ検証プロセスをシンプルにするために設計されたフレームワークである。本稿では,量子化器の研究の堅牢性について包括的に分析する。
論文参考訳（メタデータ） (2024-02-14T08:46:15Z)
Personalized Pricing with Invalid Instrumental Variables: Identification, Estimation, and Policy Learning [5.372349090093469]
本研究は,インストゥルメンタル変数アプローチを用いて,内在性の下でのオフラインパーソナライズド価格について検討する。 Invalid iNsTrumental変数を用いたパーソナライズされたプライシングのための新しいポリシー学習手法を提案する。
論文参考訳（メタデータ） (2023-02-24T14:50:47Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Lifelong Unsupervised Domain Adaptive Person Re-identification with Coordinated Anti-forgetting and Adaptation [127.6168183074427]
本稿では,LUDA (Lifelong Unsupervised Domain Adaptive) という新たなタスクを提案する。これは、モデルがターゲット環境のラベル付けされていないデータに継続的に適応する必要があるため、難しい。我々は、CLUDA-ReIDと呼ばれるこのタスクのための効果的なスキームを設計し、そこでは、アンチフォージェッティングが適応と調和して調整される。
論文参考訳（メタデータ） (2021-12-13T13:19:45Z)
MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文参考訳（メタデータ） (2021-02-23T01:30:55Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。