論文の概要: Multiversion Hindsight Logging for Continuous Training
- arxiv url: http://arxiv.org/abs/2310.07898v1
- Date: Wed, 11 Oct 2023 21:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 03:00:34.128937
- Title: Multiversion Hindsight Logging for Continuous Training
- Title(参考訳): 継続的トレーニングのためのマルチバージョンハインドサイトロギング
- Authors: Rolando Garcia, Anusha Dandamudi, Gabriel Matute, Lehan Wan, Joseph
Gonzalez, Joseph M. Hellerstein, Koushik Sen
- Abstract要約: Production Machine Learningは、時間とともに複数のバージョンのモデルをホストする。
MLEは、多くの以前のバージョンのコードを調べて分析し、根本原因を特定し、問題を緩和することで、問題をデバッグする。
FlorDBはMultiversion Hindsight Loggingを導入した。最新のバージョンのロギングステートメントを使用して過去のバージョンを探索することができる。
- 参考スコア(独自算出の注目度): 9.19507275099042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Production Machine Learning involves hosting multiple versions of models over
time, often with many model versions running at once. When model performance
does not meet expectations, Machine Learning Engineers (MLEs) debug issues by
exploring and analyzing numerous prior versions of code and training data to
identify root causes and mitigate problems. Traditional debugging and logging
tools often fall short in managing this experimental, multi-version context. To
address the challenges in this domain, novel approaches are required for
logging and log data management.
FlorDB introduces Multiversion Hindsight Logging, which allows engineers to
use the most recent version's logging statements to explore past versions, even
when older versions logged different data. Log statement propagation enables
consistent injection of logging statements into past code versions, regardless
of changes to the codebase. Once log statements are propagated across code
versions, the remaining challenges in Multiversion Hindsight Logging relate to
efficiently replaying the new log statements based on checkpoints from previous
runs. Finally, a coherent user experience is required to help MLEs debug across
all versions of code and data. To this end, FlorDB presents a unified
relational model for efficient handling of historical queries, offering a
comprehensive view of the log history to simplify the exploration of past code
iterations.
In sum, FlorDB provides a robust tool tailored to the specific needs of MLEs,
significantly enhancing their ability to navigate the intricate landscape of ML
experimentation.
- Abstract(参考訳): Production Machine Learningは、時間とともに複数のバージョンのモデルをホストし、多くの場合、複数のモデルバージョンが同時に実行される。
モデルパフォーマンスが期待を満たさない場合、機械学習エンジニア(mles)は、多くの以前のバージョンのコードとトレーニングデータの探索と分析を通じて問題をデバッグし、根本原因を特定し、問題を緩和する。
従来のデバッグとロギングツールは、実験的なマルチバージョンコンテキストの管理に不足することが多い。
この領域の課題に対処するためには、ロギングとログデータ管理に新しいアプローチが必要である。
FlorDBはMultiversion Hindsight Loggingを導入し、エンジニアは最新のバージョンのロギングステートメントを使用して過去のバージョンを探索することができる。
ログステートメントの伝搬は、コードベースの変更にかかわらず、過去のコードバージョンにロギングステートメントを一貫した注入を可能にする。
一度ログステートメントがコードバージョンに伝播すると、multiversionhindsight loggingの残りの課題は、以前の実行時のチェックポイントに基づいて、新しいログステートメントを効率的に再生することに関連する。
最後に、すべてのバージョンのコードとデータのMLEデバッグを支援するために、一貫性のあるユーザエクスペリエンスが必要です。
この目的のためにflordbは、履歴クエリを効率的に処理するための統一リレーショナルモデルを提示し、ログ履歴の包括的なビューを提供し、過去のコードのイテレーションの探索を簡単にする。
まとめると、FlorDBはMLEの特定のニーズに合わせた堅牢なツールを提供し、ML実験の複雑なランドスケープをナビゲートする能力を大幅に強化する。
関連論文リスト
- LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step [35.76881887942524]
大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。
本研究では,Large Language Model Debugger (LDB)を紹介する。
LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。
論文 参考訳(メタデータ) (2024-02-25T00:56:27Z) - EXPLAIN, EDIT, GENERATE: Rationale-Sensitive Counterfactual Data
Augmentation for Multi-hop Fact Verification [28.453817513380276]
言語学的に多様でラベルに富む対物を生成するための有理感な手法を開発した。
具体的には、多様で流動的なカウンターファクトは、Explain-Edit-Generateアーキテクチャを介して生成される。
実験の結果,提案手法はSOTAベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-23T02:39:14Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。