論文の概要: From Pre-labeling to Production: Engineering Lessons from a Machine Learning Pipeline in the Public Sector
- arxiv url: http://arxiv.org/abs/2511.01545v1
- Date: Mon, 03 Nov 2025 13:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.2638
- Title: From Pre-labeling to Production: Engineering Lessons from a Machine Learning Pipeline in the Public Sector
- Title(参考訳): プレラベルから生産へ: 公共部門における機械学習パイプラインからの工学的教訓
- Authors: Ronivaldo Ferreira, Guilherme da Silva, Carla Rocha, Gustavo Pinto,
- Abstract要約: 機械学習は政府のデジタルプラットフォームにますます組み込まれている。
パブリックセクタの制約により、正確で監査可能で運用可能なMLシステムの構築が困難になる。
この研究は、公共セクターにおける機械学習の成功は、モデル精度のブレークスルーよりも、市民が信頼できる透明で再現可能で説明可能なデータ基盤を設計する機関の能力に依存していることを示している。
- 参考スコア(独自算出の注目度): 2.3854672173722844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning is increasingly being embedded into government digital platforms, but public-sector constraints make it difficult to build ML systems that are accurate, auditable, and operationally sustainable. In practice, teams face not only technical issues like extreme class imbalance and data drift, but also organizational barriers such as bureaucratic data access, lack of versioned datasets, and incomplete governance over provenance and monitoring. Our study of the Brasil Participativo (BP) platform shows that common engineering choices -- like using LLMs for pre-labeling, splitting models into routed classifiers, and generating synthetic data -- can speed development but also introduce new traceability, reliability, and cost risks if not paired with disciplined data governance and human validation. This means that, in the public sector, responsible ML is not just a modeling problem but an institutional engineering problem, and ML pipelines must be treated as civic infrastructure. Ultimately, this study shows that the success of machine learning in the public sector will depend less on breakthroughs in model accuracy and more on the ability of institutions to engineer transparent, reproducible, and accountable data infrastructures that citizens can trust.
- Abstract(参考訳): マシンラーニングは政府のデジタルプラットフォームにますます組み込まれていますが、パブリックセクタの制約により、正確で監査可能で運用可能なMLシステムの構築が困難になっています。
実際には、極端なクラスの不均衡やデータドリフトといった技術的な問題だけでなく、官僚的なデータアクセス、バージョン付きデータセットの欠如、前例や監視に対する不完全なガバナンスといった組織的な障壁に直面しています。
BP(Brasil Participativo)プラットフォームに関する我々の研究は、LCMを事前ラベル付けに使用したり、モデルをルート付き分類器に分割したり、合成データを生成するといった一般的なエンジニアリング上の選択が、開発を高速化するだけでなく、規律付きデータガバナンスや人間の検証と組み合わせなければ、新たなトレーサビリティ、信頼性、コストリスクも導入できることを示している。
これは、公共部門では、責任あるMLは単なるモデリングの問題ではなく、機関のエンジニアリングの問題であり、MLパイプラインは市民のインフラとして扱われなければならないことを意味する。
最終的には、公共セクターにおける機械学習の成功は、モデル精度のブレークスルーよりも、市民が信頼できる透明性、再現性、説明責任のあるデータ基盤を設計する機関の能力にかかっていることが示される。
関連論文リスト
- Polymer Data Challenges in the AI Era: Bridging Gaps for Next-Generation Energy Materials [9.347169734763694]
エネルギー技術のための高度なポリマーの追求は 断片化されたデータ生態系によって妨げられています
この断片化は、機械学習の応用と、グローバルな脱炭に不可欠な物質の発見を阻害する。
新興ソリューションは、技術的および協調的なイノベーションを通じて、これらのギャップに対処する。
論文 参考訳(メタデータ) (2025-05-15T00:20:42Z) - Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - Towards Data Governance of Frontier AI Models [0.0]
私たちは、フロンティアAIモデルに対して、データが新たなガバナンス能力を実現する方法について検討する。
データは非リバルで、しばしば非排除可能で、容易に複製可能で、ますます合成可能になっている。
データサプライチェーンに沿ってキーアクターをターゲットにした一連のポリシー機構を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:37:51Z) - Benchmarking Automated Machine Learning Methods for Price Forecasting
Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2023-04-28T10:27:38Z) - Applications of Federated Learning in Manufacturing: Identifying the
Challenges and Exploring the Future Directions with Industry 4.0 and 5.0
Visions [3.8351350496532057]
製造環境では、データ収集と分析は、しばしば時間がかかり、困難で、コストがかかるプロセスである。
IoT(Internet of Things)の導入により、データをリアルタイムでファクトリ全体で統合的に収集することが可能になる。
本研究は, 製造業における連合学習の課題と今後の方向性を概観することを目的とする。
論文 参考訳(メタデータ) (2023-02-27T04:31:49Z) - Agnostic Learning for Packing Machine Stoppage Prediction in Smart
Factories [0.0]
サイバー物理コンバージェンス(サイバー物理コンバージェンス)は、産業界に新たなビジネスチャンスを開こうとしている。
サイバーと物理世界の深い統合の必要性は、新しいシステムとネットワークエンジニアリングのアプローチを統合するための豊富なビジネスアジェンダを確立する。
このデータ豊かでサイバー物理学的でスマートな工場環境から生まれた、最も実りある研究と実践の分野の1つは、データ駆動のプロセス監視分野である。
論文 参考訳(メタデータ) (2022-12-12T23:45:59Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - Technology Readiness Levels for Machine Learning Systems [107.56979560568232]
機械学習システムの開発とデプロイは、現代のツールで簡単に実行できますが、プロセスは一般的に急ぎ、エンドツーエンドです。
私たちは、機械学習の開発と展開のための実証済みのシステムエンジニアリングアプローチを開発しました。
当社の「機械学習技術準備レベル」フレームワークは、堅牢で信頼性が高く、責任あるシステムを確保するための原則的なプロセスを定義します。
論文 参考訳(メタデータ) (2021-01-11T15:54:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。