論文の概要: Flow with FlorDB: Incremental Context Maintenance for the Machine Learning Lifecycle
- arxiv url: http://arxiv.org/abs/2408.02498v2
- Date: Fri, 15 Nov 2024 20:57:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:29:56.221065
- Title: Flow with FlorDB: Incremental Context Maintenance for the Machine Learning Lifecycle
- Title(参考訳): Flow with FlorDB: マシンラーニングライフサイクルにおけるインクリメンタルコンテキストメンテナンス
- Authors: Rolando Garcia, Pragya Kallanagoudar, Chithra Anand, Sarah E. Chasins, Joseph M. Hellerstein, Erin Michelle Turner Kerrison, Aditya G. Parameswaran,
- Abstract要約: 機械学習パイプラインから任意のメタデータを抽出・クエリする手法を提案する。
後ろ向きのロギングによって、そのようなステートメントが追加され、ポストホックで実行されるかを示します。
これは、アジャイル開発の重要なパスから外れた"メタメタスタイル"で行われます。
- 参考スコア(独自算出の注目度): 9.424552130799661
- License:
- Abstract: In this paper we present techniques to incrementally harvest and query arbitrary metadata from machine learning pipelines, without disrupting agile practices. We center our approach on the developer-favored technique for generating metadata -- log statements -- leveraging the fact that logging creates context. We show how hindsight logging allows such statements to be added and executed post-hoc, without requiring developer foresight. Relational views of incomplete metadata can be queried to dynamically materialize new metadata in bulk and on demand across multiple versions of workflows. This is done in a "metadata later" style, off the critical path of agile development. We realize these ideas in a system called FlorDB and demonstrate how the data context framework covers a range of both ad-hoc metadata as well as special cases treated today by bespoke feature stores and model repositories. Through a usage scenario -- including both ML and human feedback -- we illustrate how the component techniques come together to resolve classic software engineering trade-offs between agility and discipline.
- Abstract(参考訳): 本稿では,機械学習パイプラインから任意のメタデータをインクリメンタルに抽出し,クエリする手法を提案する。
当社のアプローチは、ログがコンテキストを生成するという事実を活用して、メタデータ -- ログステートメント -- を生成する、開発者から好まれるテクニックに重点を置いています。
開発者の監視を必要とせずに、後向きのロギングによってこのようなステートメントの追加や実行が可能になったかを示します。
不完全なメタデータのリレーショナルビューは、複数のバージョンのワークフローにまたがって、大量のメタデータとオンデマンドで動的に新しいメタデータを実体化するためにクエリすることができる。
これはアジャイル開発の重要な道から外れた"メタメタ"スタイルで行われます。
これらのアイデアをFlorDBと呼ばれるシステムで実現し、データコンテキストフレームワークがアドホックなメタデータと、今日、bespoke機能ストアとモデルリポジトリによって扱われている特別なケースの両方をどのようにカバーしているかを実証する。
MLと人的フィードバックの両方を含む利用シナリオを通じて、私たちは、アジリティと規律の間の古典的なソフトウェア工学のトレードオフを解決するために、コンポーネントのテクニックがどのように統合されるかを説明します。
関連論文リスト
- Bootstrap Your Own Context Length [74.61148597039248]
長文言語モデルを学習するためのブートストラップ手法を提案する。
提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキスト検索、文書収集のみを必要とする。
我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを実証した。
論文 参考訳(メタデータ) (2024-12-25T10:08:54Z) - The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。
このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。
本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文 参考訳(メタデータ) (2024-09-02T23:28:15Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - A Topical Approach to Capturing Customer Insight In Social Media [0.0]
この研究は、ノイズの多いビッグデータコンテキストにおいて、完全に教師なしのトピック抽出の課題に対処する。
本稿では,変分オートエンコーダフレームワーク上に構築した3つのアプローチを提案する。
我々のモデルは最先端の手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-07-14T11:15:28Z) - Pathway: a fast and flexible unified stream data processing framework
for analytical and Machine Learning applications [7.850979932441607]
Pathwayは新しい統一データ処理フレームワークで、バウンドとアンバウンドのデータストリームの両方でワークロードを実行できる。
本稿では,本システムについて述べるとともに,バッチとストリーミングの両コンテキストにおいて,その性能を示すベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-07-12T08:27:37Z) - Metadata Representations for Queryable ML Model Zoos [73.24799582702326]
機械学習(ML)の実践者や組織は、事前訓練されたモデルのモデル動物園を構築しており、モデルの性質を記述するメタデータを含んでいる。
メタタダは現在標準化されておらず、表現力は限られている。
本稿では,MLモデルのメタデータ表現と管理の標準化を提唱し,そのメタデータの管理とクエリを支援するツールキットを提案する。
論文 参考訳(メタデータ) (2022-07-19T15:04:14Z) - Scanflow: A multi-graph framework for Machine Learning workflow
management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。
このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文 参考訳(メタデータ) (2021-11-04T17:01:12Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Petri Nets with Parameterised Data: Modelling and Verification (Extended
Version) [67.99023219822564]
我々は、カタログネットと呼ばれるカラーペトリネットの拡張を紹介し、研究し、このタイプのプロセスを捉える2つの重要な特徴を提供する。
我々は、新しい価値注入が特に扱いにくい機能であることを示し、それを改ざんするための戦略について議論する。
論文 参考訳(メタデータ) (2020-06-11T17:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。