論文の概要: Statistical Software Engineering with Tuned Variables
- arxiv url: http://arxiv.org/abs/2604.19822v1
- Date: Mon, 20 Apr 2026 09:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.562446
- Title: Statistical Software Engineering with Tuned Variables
- Title(参考訳): 可変可変変数を用いた統計的ソフトウェア工学
- Authors: Nimrod Busany,
- Abstract要約: AI対応システムにおける保守されたアーティファクトは、コードプラス設定ではなく、バージョン管理された管理プログラムスペースである。
プログラム変数は、環境や評価セットが進化するにつれて、ガバナンスの下で維持される。
- 参考スコア(独自算出の注目度): 0.5076419064097734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The maintained artifact in an AI-enabled system is not code plus settings, but a versioned governed program space: domains, structural constraints, eligibility, evaluation assets, and a statistical release gate. AI-enabled systems operate under changing world conditions: provider models and APIs change, input distributions drift, evaluation sets age, and objectives such as quality, cost, latency, and safety are renegotiated over time. In practice, teams often respond through ad hoc changes to model choice, retrieval policy, prompt structure, and operational thresholds. Fixed-assignment reasoning is therefore insufficient: a chosen assignment is valid only relative to an environment, evaluation set, and policy state. We argue that such choices should be treated as tuned variables: program variables maintained under governance as environments and evaluation sets evolve. Building on SE4AI work and our prior work on governed tuning, this paper positions the governed space as the software-engineering object. Here, statistical means that promotion relies on sampled evaluation sets, estimated evidence, effect-size margins, and confidence/risk thresholds.
- Abstract(参考訳): AI対応システムの保守されたアーティファクトはコードプラス設定ではなく、ドメイン、構造的制約、適性、評価資産、統計的リリースゲートといったバージョン管理されたプログラム空間である。
プロバイダモデルとAPIの変更、入力分布のドリフト、評価セットの年齢、品質、コスト、レイテンシ、安全性といった目標が時間とともに再交渉される。
実際には、モデル選択、検索ポリシ、プロンプト構造、運用しきい値に対するアドホックな変更を通じて、チームは応答することが多い。
したがって、固定割当推論は不十分であり、選択された割当は環境、評価セット、政策状態に対してのみ有効である。
プログラム変数は、環境や評価セットが進化するにつれて、ガバナンスの下で維持される。
本論文は,SE4AI作業と制御チューニングに関する先行研究に基づいて,制御された空間をソフトウェア工学的対象として位置づける。
ここでは、プロモーションはサンプル評価セット、推定エビデンス、効果サイズマージン、信頼/リスクしきい値に依存することを意味する。
関連論文リスト
- EmbodiedGovBench: A Benchmark for Governance, Recovery, and Upgrade Safety in Embodied Agent Systems [14.412476605788482]
EmbodiedGovBenchは、エンボディエージェントシステムのガバナンス指向評価のためのベンチマークである。
現実的な摂動の下で、システムは制御可能か、ポリシーに縛られたか、回復可能か、監査可能か、進化安全かを評価する。
論文 参考訳(メタデータ) (2026-04-13T08:34:04Z) - Position Paper: From Edge AI to Adaptive Edge AI [4.915029686150193]
エッジAIはしばしば、厳密な制約の下でモデル圧縮とデプロイメントとしてフレーム化される。
現実的なデプロイメントにおけるエッジAIは、必ず適応的です。
論文 参考訳(メタデータ) (2026-03-31T08:12:29Z) - Quality-Driven Agentic Reasoning for LLM-Assisted Software Design: Questions-of-Thoughts (QoT) as a Time-Series Self-QA Chain [0.0]
品質駆動型推論時間スキャフォールドであるQoTを導入し,ユーザ目標をエンジニアリングステップの順序付きシーケンスに変換する。
QoTは、API設計、データ通信、ファイルシステムの3つの代表的なバックエンドエンジニアリング領域にまたがって評価する。
論文 参考訳(メタデータ) (2026-03-10T23:49:09Z) - Decoding ML Decision: An Agentic Reasoning Framework for Large-Scale Ranking System [26.405948122941467]
本稿では、最適化を自律的な発見プロセスとして再編成するフレームワークであるGEARSを紹介する。
GEARSは、アルゴリズム信号と深いランク付けコンテキストを相乗化することにより、優れた、ほぼパレート効率のポリシーを一貫して識別する。
論文 参考訳(メタデータ) (2026-02-20T22:24:01Z) - AdaptNC: Adaptive Nonconformity Scores for Uncertainty-Aware Autonomous Systems in Dynamic Environments [7.201566646241765]
コンフォーマル予測法は、コンフォーマル閾値を適応的にスケーリングすることで目標範囲を維持する。
この固定幾何は, 環境が構造変化を起こすと, 極めて保守的で, 容積非効率な予測領域につながることを示す。
非整合スコアパラメータと整合しきい値の両方をオンライン化するためのフレームワークである textbfAdaptNC を提案する。
論文 参考訳(メタデータ) (2026-02-02T04:41:35Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - SKADA-Bench: Benchmarking Unsupervised Domain Adaptation Methods with Realistic Validation On Diverse Modalities [50.6382396309597]
Unsupervised Domain Adaptation (DA) は、ラベル付きソースドメインでトレーニングされたモデルを適用して、ラベルなしのターゲットドメインでデータ分散シフトをうまく実行する。
本稿では,再重み付け,マッピング,部分空間アライメントなど,既存の浅層アルゴリズムの完全かつ公平な評価を行う。
本ベンチマークでは,現実的な検証の重要性を強調し,現実的なアプリケーションに対する実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-07-16T12:52:29Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。