論文の概要: FlorDB: Multiversion Hindsight Logging for Continuous Training
- arxiv url: http://arxiv.org/abs/2310.07898v2
- Date: Tue, 6 Feb 2024 22:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:01:04.932403
- Title: FlorDB: Multiversion Hindsight Logging for Continuous Training
- Title(参考訳): FlorDB: 継続的トレーニングのためのマルチバージョン監視ロギング
- Authors: Rolando Garcia, Anusha Dandamudi, Gabriel Matute, Lehan Wan, Joseph
Gonzalez, Joseph M. Hellerstein, Koushik Sen
- Abstract要約: Multiversion Hindsight Loggingでは、古いバージョンが異なるデータをログしている場合でも、エンジニアが過去のバージョンをクエリできる。
FlorDBは、履歴クエリの効率的な処理のための統一リレーショナルモデルを提供する。
- 参考スコア(独自算出の注目度): 9.19507275099042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Production Machine Learning involves continuous training: hosting multiple
versions of models over time, often with many model versions running at once.
When model performance does not meet expectations, Machine Learning Engineers
(MLEs) debug issues by exploring and analyzing numerous prior versions of code
and training data to identify root causes and mitigate problems. Traditional
debugging and logging tools often fall short in managing this experimental,
multi-version context. FlorDB introduces Multiversion Hindsight Logging, which
allows engineers to use the most recent version's logging statements to query
past versions, even when older versions logged different data. Log statement
propagation enables consistent injection of logging statements into past code
versions, regardless of changes to the codebase. Once log statements are
propagated across code versions, the remaining challenge in Multiversion
Hindsight Logging is to efficiently replay the new log statements based on
checkpoints from previous runs. Finally, a coherent user experience is required
to help MLEs debug across all versions of code and data. To this end, FlorDB
presents a unified relational model for efficient handling of historical
queries, offering a comprehensive view of the log history to simplify the
exploration of past code iterations. We present a performance evaluation on
diverse benchmarks confirming its scalability and the ability to deliver
real-time query responses, leveraging query-based filtering and
checkpoint-based parallelism for efficient replay.
- Abstract(参考訳): プロダクション機械学習には継続的トレーニングが伴う。複数のバージョンのモデルを時間とともにホストし、多くの場合、複数のモデルバージョンを同時に実行する。
モデルパフォーマンスが期待を満たさない場合、機械学習エンジニア(mles)は、多くの以前のバージョンのコードとトレーニングデータの探索と分析を通じて問題をデバッグし、根本原因を特定し、問題を緩和する。
従来のデバッグとロギングツールは、実験的なマルチバージョンコンテキストの管理に不足することが多い。
FlorDBはMultiversion Hindsight Loggingを導入し、エンジニアは最新のバージョンのロギングステートメントを使用して過去のバージョンを問い合わせることができる。
ログステートメントの伝搬は、コードベースの変更にかかわらず、過去のコードバージョンにロギングステートメントを一貫した注入を可能にする。
ログステートメントがコードバージョンに伝播されると、multiversionhindsight loggingの残りの課題は、以前の実行時のチェックポイントに基づいて、新しいログステートメントを効率的に再生することである。
最後に、すべてのバージョンのコードとデータのMLEデバッグを支援するために、一貫性のあるユーザエクスペリエンスが必要です。
この目的のためにflordbは、履歴クエリを効率的に処理するための統一リレーショナルモデルを提示し、ログ履歴の包括的なビューを提供し、過去のコードのイテレーションの探索を簡単にする。
本稿では,クエリベースのフィルタリングとチェックポイントベースの並列処理を有効活用し,そのスケーラビリティとリアルタイムクエリ応答能力を確認した多種多様なベンチマークの性能評価を行う。
関連論文リスト
- LDB: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step [35.76881887942524]
大規模言語モデル(LLM)はコード生成の大きな進歩を導いている。
本研究では,Large Language Model Debugger (LDB)を紹介する。
LDBはプログラムを基本ブロックに分割し、実行中の各ブロックの後に中間変数の値を追跡する。
論文 参考訳(メタデータ) (2024-02-25T00:56:27Z) - EXPLAIN, EDIT, GENERATE: Rationale-Sensitive Counterfactual Data
Augmentation for Multi-hop Fact Verification [28.453817513380276]
言語学的に多様でラベルに富む対物を生成するための有理感な手法を開発した。
具体的には、多様で流動的なカウンターファクトは、Explain-Edit-Generateアーキテクチャを介して生成される。
実験の結果,提案手法はSOTAベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-23T02:39:14Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。