論文の概要: Operationalizing AI: Empirical Evidence on MLOps Practices, User Satisfaction, and Organizational Context
- arxiv url: http://arxiv.org/abs/2510.09968v1
- Date: Sat, 11 Oct 2025 02:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.715637
- Title: Operationalizing AI: Empirical Evidence on MLOps Practices, User Satisfaction, and Organizational Context
- Title(参考訳): 運用AI:MLOpsプラクティス、ユーザ満足度、組織コンテキストに関する実証的証拠
- Authors: Stefan Pasch,
- Abstract要約: 本稿では、G2.comから8000以上のAI開発プラットフォームのユーザレビューを分析する。
9つの確立された機械学習オペレーションに対するレビューの感情を測定する。
9つのプラクティスのうち7つは、ユーザの満足度と大きなポジティブな関係を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Organizational efforts to utilize and operationalize artificial intelligence (AI) are often accompanied by substantial challenges, including scalability, maintenance, and coordination across teams. In response, the concept of Machine Learning Operations (MLOps) has emerged as a set of best practices that integrate software engineering principles with the unique demands of managing the ML lifecycle. Yet, empirical evidence on whether and how these practices support users in developing and operationalizing AI applications remains limited. To address this gap, this study analyzes over 8,000 user reviews of AI development platforms from G2.com. Using zero-shot classification, we measure review sentiment toward nine established MLOps practices, including continuous integration and delivery (CI/CD), workflow orchestration, reproducibility, versioning, collaboration, and monitoring. Seven of the nine practices show a significant positive relationship with user satisfaction, suggesting that effective MLOps implementation contributes tangible value to AI development. However, organizational context also matters: reviewers from small firms discuss certain MLOps practices less frequently, suggesting that organizational context influences the prevalence and salience of MLOps, though firm size does not moderate the MLOps-satisfaction link. This indicates that once applied, MLOps practices are perceived as universally beneficial across organizational settings.
- Abstract(参考訳): 人工知能(AI)を活用、運用するための組織的取り組みには、スケーラビリティ、メンテナンス、チーム間の調整など、大きな課題が伴うことが多い。
これに対し、機械学習オペレーション(MLOps)という概念は、ソフトウェアエンジニアリングの原則とMLライフサイクルを管理するというユニークな要求を統合するためのベストプラクティスのセットとして登場した。
しかし、これらのプラクティスがAIアプリケーションの開発と運用においてユーザを支援するかどうかに関する実証的な証拠は依然として限られている。
このギャップに対処するため、G2.comから8000以上のAI開発プラットフォームのユーザレビューを分析した。
ゼロショット分類を使用して、継続的インテグレーションとデリバリ(CI/CD)、ワークフローオーケストレーション、再現性、バージョニング、コラボレーション、監視を含む、9つの確立したMLOpsプラクティスに対するレビューの感情を測定する。
9つのプラクティスのうち7つは、ユーザ満足度と大きな肯定的な関係を示し、効果的なMLOps実装がAI開発に有意義な価値をもたらすことを示唆している。
小規模企業のレビュアーはMLOpsの実践をあまり頻繁に議論せず、組織のコンテキストがMLOpsの流行と健全性に影響を与えることを示唆している。
このことは、一度適用されれば、MLOpsのプラクティスが組織設定全体にわたって普遍的に有用であると認識されることを示している。
関連論文リスト
- Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind [8.740788873949471]
大規模言語モデル(LLM)は急速に発展し、汎用タスクと専門タスクの両方に広く応用されている。
意図や指示が不正確に伝達されるとき、彼らは依然として、真のユーザニーズを理解し、応答するのに苦労しています。
論文 参考訳(メタデータ) (2026-02-14T16:01:59Z) - Applying a Requirements-Focused Agile Management Approach for Machine Learning-Enabled Systems [1.3704574906282525]
機械学習(ML)対応システムは、従来の要件工学(RE)とアジャイル管理に挑戦する。
既存のREとアジャイルのプラクティスは統合が不十分で、これらの特性に十分に適合していません。
本稿では,ML対応システムの継続的かつアジャイルな改善のための要件重視のアプローチであるRefineMLの適用経験について報告する。
論文 参考訳(メタデータ) (2026-02-04T20:49:02Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - EIFBENCH: Extremely Complex Instruction Following Benchmark for Large Language Models [64.70546873396624]
大規模言語モデル(LLM)を評価するためのEIFBENCH(Extremely Complex Instruction following Benchmark)を提案する。
EIFBENCHにはマルチタスクシナリオが含まれており、多様なタスクタイプを同時に総合的に評価することができる。
また,LLMのマルチタスクワークフローを正確に満たす能力を高めるために,セグメントポリシー最適化(SegPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-10T02:39:55Z) - ORMind: A Cognitive-Inspired End-to-End Reasoning Framework for Operations Research [56.961539386979354]
ORMindは認知にインスパイアされたフレームワークで、反ファクト推論を通じて最適化を強化する。
提案手法は,要求を数学的モデルや実行可能なコードに変換するエンド・ツー・エンドのワークフローを実装し,人間の認識をエミュレートする。
現在はLenovoのAIアシスタントで内部でテストされており、ビジネスとコンシューマの両方の最適化機能を強化する予定である。
論文 参考訳(メタデータ) (2025-06-02T05:11:21Z) - Evaluations at Work: Measuring the Capabilities of GenAI in Use [28.124088786766965]
現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T23:06:23Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - Fine-Grained Appropriate Reliance: Human-AI Collaboration with a Multi-Step Transparent Decision Workflow for Complex Task Decomposition [14.413413322901409]
本稿では,MST(Multi-Step Transparent)決定ワークフローがユーザ依存行動に与える影響について検討する。
MST決定ワークフローとの人間とAIのコラボレーションは、特定の文脈におけるワンステップのコラボレーションよりも優れていることを示す。
私たちの研究は、最適な人間とAIのコラボレーションを得るのに役立つ、オールサイズの意思決定ワークフローが存在しないことを強調しています。
論文 参考訳(メタデータ) (2025-01-19T01:03:09Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - Initial Insights on MLOps: Perception and Adoption by Practitioners [9.777475640906404]
MLOps(Machine Learning and Operations)ガイドラインがこの分野の主要なリファレンスとして登場した。
MLOpsガイドラインの導入にも拘わらず、その実装には懐疑論の程度がある。
この研究は、MLOpsとその機械学習におけるイノベーションの次のフェーズへの影響について、より深い洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2024-08-01T11:08:29Z) - A Multivocal Review of MLOps Practices, Challenges and Open Issues [9.227450931458907]
MLOpsは、MLモデルを本番環境に導入する、多くの社会技術的課題に対処するための重要なソリューションとして登場した。
MLOpsの実用性にもかかわらず、MLOpsに関する統合された知識体系は、それが対処するML生産化の課題の多様性のために、依然として解明されている。
本稿では,150のピアレビューと48のグレー文学のコーパスを体系的に解析し,MLOpsの統一的な概念化を合成する多言語文献レビューを提案する。
論文 参考訳(メタデータ) (2024-06-14T05:47:13Z) - Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration [83.4031923134958]
Corexは,大規模言語モデルを自律エージェントに変換する,新たな汎用戦略スイートだ。
人間の振る舞いにインスパイアされたCorexは、Debate、Review、Retrieveモードといった多様なコラボレーションパラダイムによって構成されている。
我々は,複数のLDMを協調的に演奏することで,既存の手法に比べて性能が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-09-30T07:11:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。