Fugu-MT 論文翻訳(概要): Tribuo: Machine Learning with Provenance in Java

論文の概要: Tribuo: Machine Learning with Provenance in Java

arxiv url: http://arxiv.org/abs/2110.03022v1
Date: Wed, 6 Oct 2021 19:10:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-09 12:11:25.210186
Title: Tribuo: Machine Learning with Provenance in Java
Title（参考訳）: Tribuo: Javaでのプロヴァンスによる機械学習
Authors: Adam Pocock
Abstract要約: トレーニング、型安全性、ランタイムチェック、自動記録をひとつのフレームワークに統合するJava MLライブラリであるTribuoを紹介します。 Tribuoのモデルと評価はすべて、トレーニングアルゴリズムとともに、入力データの完全な処理パイプラインを記録している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine Learning models are deployed across a wide range of industries, performing a wide range of tasks. Tracking these models and ensuring they behave appropriately is becoming increasingly difficult as the number of deployed models increases. There are also new regulatory burdens for ML systems which affect human lives, requiring a link between a model and its training data in high-risk situations. Current ML monitoring systems often provide provenance and experiment tracking as a layer on top of an ML library, allowing room for imperfect tracking and skew between the tracked object and the metadata. In this paper we introduce Tribuo, a Java ML library that integrates model training, inference, strong type-safety, runtime checking, and automatic provenance recording into a single framework. All Tribuo's models and evaluations record the full processing pipeline for input data, along with the training algorithms, hyperparameters and data transformation steps automatically. The provenance lives inside the model object and can be persisted separately using common markup formats. Tribuo implements many popular ML algorithms for classification, regression, clustering, multi-label classification and anomaly detection, along with interfaces to XGBoost, TensorFlow and ONNX Runtime. Tribuo's source code is available at https://github.com/oracle/tribuo under an Apache 2.0 license with documentation and tutorials available at https://tribuo.org.
Abstract（参考訳）: 機械学習モデルは、幅広い産業に展開され、幅広いタスクを実行します。これらのモデルを追跡し、適切に振る舞うことを保証することは、デプロイされたモデルの数が増えるにつれてますます難しくなっている。 MLシステムには新たな規制上の負担があり、リスクの高い状況では、モデルとトレーニングデータの間にリンクが必要である。現在のML監視システムは、しばしばMLライブラリの上の層として証明と実験の追跡を提供し、追跡されたオブジェクトとメタデータの間の不完全なトラッキングとスキューのスペースを可能にする。本稿では,モデルトレーニング,推論,強力な型安全性,実行時チェック,自動証明記録をひとつのフレームワークに統合したJava MLライブラリTribuoを紹介する。 Tribuoのモデルと評価はすべて、トレーニングアルゴリズム、ハイパーパラメータ、データ変換ステップとともに、入力データの完全な処理パイプラインを自動で記録する。証明はモデルオブジェクト内に存在し、共通のマークアップフォーマットを使用して別々に永続化できる。 Tribuoは、XGBoost、TensorFlow、ONNX Runtimeのインターフェースとともに、分類、回帰、クラスタリング、マルチラベル分類、異常検出のための多くの一般的なMLアルゴリズムを実装している。 TribuoのソースコードはApache 2.0ライセンスでhttps://github.com/oracle/tribuoで入手できる。

関連論文リスト

Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2254432364736]
大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
論文参考訳（メタデータ） (2025-11-10T02:26:14Z)
APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。 xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文参考訳（メタデータ） (2025-04-04T17:13:57Z)
Cuvis.Ai: An Open-Source, Low-Code Software Ecosystem for Hyperspectral Processing and Classification [0.4038539043067986]
cuvis.aiは、データ取得、前処理、モデルトレーニングのためのオープンソースでローコードなソフトウェアエコシステムである。パッケージはPythonで書かれており、一般的な機械学習ライブラリのラッパーを提供する。
論文参考訳（メタデータ） (2024-11-18T06:33:40Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文参考訳（メタデータ） (2024-05-27T22:15:23Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文参考訳（メタデータ） (2022-11-23T07:04:41Z)
Incremental Online Learning Algorithms Comparison for Gesture and Visual Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文参考訳（メタデータ） (2022-09-01T17:05:20Z)
Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。 NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-06-23T09:35:03Z)
Scanflow: A multi-graph framework for Machine Learning workflow management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文参考訳（メタデータ） (2021-11-04T17:01:12Z)
Enabling Un-/Semi-Supervised Machine Learning for MDSE of the Real-World CPS/IoT Applications [0.5156484100374059]
我々は、スマートサイバー物理システム(CPS)とIoT(Internet of Things)の現実的なユースケースシナリオに対して、ドメイン固有モデル駆動ソフトウェアエンジニアリング(MDSE)をサポートする新しいアプローチを提案する。人工知能(AI)の本質において利用可能なデータの大部分はラベルが付けられていないと我々は主張する。したがって、教師なしおよび/または半教師なしのMLアプローチが実践的な選択である。提案手法は,既存の最先端MDSEツールと完全に実装され,CPS/IoTドメインを提供する。
論文参考訳（メタデータ） (2021-07-06T15:51:39Z)
It's the Best Only When It Fits You Most: Finding Related Models for Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文参考訳（メタデータ） (2020-10-13T22:52:13Z)
Vamsa: Automated Provenance Tracking in Data Science Scripts [17.53546311589593]
本稿では,MLプロビデンス追跡問題を紹介する。このような情報をPythonのコンテキストで取得する上での課題について論じる。ユーザコードの変更を必要とせずに,Pythonスクリプトから証明を抽出するモジュールシステムであるVamsaを提案する。
論文参考訳（メタデータ） (2020-01-07T02:39:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。