Fugu-MT 論文翻訳(概要): Flow with FlorDB: Incremental Context Maintenance for the Machine Learning Lifecycle

論文の概要: Flow with FlorDB: Incremental Context Maintenance for the Machine Learning Lifecycle

arxiv url: http://arxiv.org/abs/2408.02498v1
Date: Mon, 5 Aug 2024 14:21:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 13:26:57.514711
Title: Flow with FlorDB: Incremental Context Maintenance for the Machine Learning Lifecycle
Title（参考訳）: Flow with FlorDB: マシンラーニングライフサイクルにおけるインクリメンタルコンテキストメンテナンス
Authors: Rolando Garcia, Pragya Kallanagoudar, Chithra Anand, Sarah E. Chasins, Joseph M. Hellerstein, Aditya G. Parameswaran,
Abstract要約: コード、データ、設定、フィードバックを予測モデルに統合するメタデータは様々で複雑です。 FlorDBは、マルチバージョン後見ロギングとインクリメンタルコンテキストメンテナンスによる摩擦を低減する。デモで示されているように、FlorDBデータセットを使用して、統合されたトレインインファーパイプラインとマネージドフィードバックループを備えたAI/MLアプリケーションを構築することができる。
参考スコア（独自算出の注目度）: 9.77897073317403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The metadata involved in integrating code, data, configuration, and feedback into predictive models is varied and complex. This complexity is further compounded by the agile development practices favored by data scientists and machine learning engineers. These practices emphasize high experimentation velocity and frequent deployments, which can make it challenging to keep track of all the relevant metadata. The iterative nature of agile methods means that models, datasets, and configurations are constantly evolving. Each experiment might involve tweaks to the data preprocessing steps, changes in model hyperparameters, or updates to the deployment environment. The need for rapid iteration can lead to shortcuts or oversights in documentation and metadata management. Effective metadata management requires robust yet flexible tools and practices that can integrate and organize this information without slowing down the development process. Traditional context management often emphasizes a ``metadata first'' approach, which can introduce significant friction for developers. FlorDB reduces this friction through multiversion hindsight logging and incremental context maintenance, allowing developers to add and refine metadata after the fact. This ``metadata later'' approach enables a more flexible and incremental development process, allowing data scientists to focus on model creation and refinement without the burden of documentation upfront. As shown in a demo, FlorDB can be used to build AI/ML applications with integrated train-infer pipelines and managed feedback loops. Ultimately, the goal of FlorDB is to ensure that critical metadata is maintained accurately and efficiently, even in fast-paced agile workflows.
Abstract（参考訳）: コード、データ、構成、フィードバックを予測モデルに統合するメタデータは様々で複雑です。この複雑さは、データサイエンティストや機械学習エンジニアが好むアジャイル開発プラクティスによってさらに複雑化されます。これらのプラクティスは、高い実験速度と頻繁なデプロイメントを強調しており、関連するすべてのメタデータを追跡するのが難しくなります。アジャイルメソッドの反復的な性質は、モデル、データセット、設定が常に進化していることを意味します。各実験には、データ前処理ステップの微調整、モデルハイパーパラメータの変更、デプロイメント環境のアップデートが含まれる。迅速なイテレーションの必要性は、ドキュメントやメタデータ管理のショートカットや監視につながる可能性がある。効果的なメタデータ管理には堅牢でフレキシブルなツールとプラクティスが必要です。従来のコンテキスト管理では,‘metadata first’アプローチが強調されることが多い。 FlorDBは、マルチバージョン後向きのロギングとインクリメンタルなコンテキストメンテナンスによって、この摩擦を減らす。この‘metadata later’アプローチは、より柔軟でインクリメンタルな開発プロセスを可能にし、データサイエンティストは、前もってドキュメントの負担なしに、モデルの作成と改善に集中することができる。デモで示されているように、FlorDBは、統合トレイン推論パイプラインとマネージドフィードバックループを備えたAI/MLアプリケーションを構築するために使用することができる。最終的にFlorDBの目標は、迅速なペースのアジャイルワークフローであっても、クリティカルなメタデータが正確かつ効率的にメンテナンスされることを保証することです。

関連論文リスト

ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文参考訳（メタデータ） (2026-01-16T08:23:52Z)
Event Extraction in Large Language Model [99.94321497574805]
私たちは、LLM中心のソリューションに認知的な足場を提供するシステムコンポーネントとして、EEは見なされるべきである、と論じます。この調査では、EEのテキストとマルチモーダル設定、タスクと分類の整理、ルールベースとニューラルモデルから命令駆動および生成フレームワークへのメソッド進化のトレースについて取り上げている。
論文参考訳（メタデータ） (2025-12-22T16:22:14Z)
Ontology-Driven Model-to-Model Transformation of Workflow Specifications [0.8921166277011348]
Smart FormsやSmart Flowといったプロプライエタリな言語は、プロセスの知識をクローズドなフォーマットにロックするため、相互運用性と再利用を妨げる。私たちは、ビジネスプロセスモデルと表記にドメイン固有の定義をサポートするオントロジー駆動のモデル・ツー・モデルパイプラインを導入します。私たちは、Serior Técnico(IST)のSmart Forms & Smart Flowのためのパイプラインをインスタンス化し、標準準拠のBPMNダイアグラムを生成するコンバータを実装しました。
論文参考訳（メタデータ） (2025-11-17T18:16:19Z)
Language Modeling with Learned Meta-Tokens [15.860245999620409]
この研究は、メタトークンを使った新しいアプローチ、事前トレーニング中に注入された特別なトークン、およびこれらのトークンを使用するためのLMをガイドする専用のメタアテンションメカニズムを導入している。メタトークンを利用した100B未満のトークンで事前学習したデータ効率の言語モデルは、微調整後、これらのタスクに対して高い性能を実現する。
論文参考訳（メタデータ） (2025-09-18T17:38:48Z)
Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文参考訳（メタデータ） (2025-07-11T07:25:55Z)
Bootstrap Your Own Context Length [74.61148597039248]
長文言語モデルを学習するためのブートストラップ手法を提案する。提案したデータ合成ワークフローは、短いコンテキスト言語モデル、テキスト検索、文書収集のみを必要とする。我々は,オープンソースのLlama-3ファミリを用いて実験を行い,最大100万トークンまでコンテキスト長を拡張できることを実証した。
論文参考訳（メタデータ） (2024-12-25T10:08:54Z)
The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文参考訳（メタデータ） (2024-09-02T23:28:15Z)
An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。提案されたフレームワークは使いやすく、柔軟です。
論文参考訳（メタデータ） (2024-02-26T07:22:51Z)
Contextualization Distillation from Large Language Model for Knowledge Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文参考訳（メタデータ） (2024-01-28T08:56:49Z)
A Topical Approach to Capturing Customer Insight In Social Media [0.0]
この研究は、ノイズの多いビッグデータコンテキストにおいて、完全に教師なしのトピック抽出の課題に対処する。本稿では,変分オートエンコーダフレームワーク上に構築した3つのアプローチを提案する。我々のモデルは最先端の手法よりも優れた性能が得られることを示す。
論文参考訳（メタデータ） (2023-07-14T11:15:28Z)
Pathway: a fast and flexible unified stream data processing framework for analytical and Machine Learning applications [7.850979932441607]
Pathwayは新しい統一データ処理フレームワークで、バウンドとアンバウンドのデータストリームの両方でワークロードを実行できる。本稿では,本システムについて述べるとともに,バッチとストリーミングの両コンテキストにおいて,その性能を示すベンチマーク結果を示す。
論文参考訳（メタデータ） (2023-07-12T08:27:37Z)
Learning to Learn from APIs: Black-Box Data-Free Meta-Learning [95.41441357931397]
データフリーなメタラーニング(DFML)は、トレーニングデータにアクセスせずに事前訓練されたモデルの集合からメタラーニングすることで、新しいタスクの効率的な学習を可能にすることを目的としている。既存のDFMLの作業は、(i)ホワイトボックスと(ii)小規模事前訓練モデルからしかメタ学習できない。ブラックボックスAPIの集合から単一のモデルへ,より一般的なメタ知識を伝達するための,バイレベルデータフリーなメタ知識蒸留(BiDf-MKD)フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-28T18:00:12Z)
Metadata Representations for Queryable ML Model Zoos [73.24799582702326]
機械学習(ML)の実践者や組織は、事前訓練されたモデルのモデル動物園を構築しており、モデルの性質を記述するメタデータを含んでいる。メタタダは現在標準化されておらず、表現力は限られている。本稿では,MLモデルのメタデータ表現と管理の標準化を提唱し,そのメタデータの管理とクエリを支援するツールキットを提案する。
論文参考訳（メタデータ） (2022-07-19T15:04:14Z)
Scanflow: A multi-graph framework for Machine Learning workflow management, supervision, and debugging [0.0]
本稿では,エンドツーエンドの機械学習ワークフロー管理を支援するコンテナ化指向グラフフレームワークを提案する。このフレームワークは、コンテナ内でMLを定義してデプロイし、メタデータを追跡し、本番環境での振る舞いを確認し、学習された知識と人為的な知識を使用してモデルを改善する。
論文参考訳（メタデータ） (2021-11-04T17:01:12Z)
Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文参考訳（メタデータ） (2021-06-14T11:42:46Z)
Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文参考訳（メタデータ） (2020-10-23T21:52:38Z)
Petri Nets with Parameterised Data: Modelling and Verification (Extended Version) [67.99023219822564]
我々は、カタログネットと呼ばれるカラーペトリネットの拡張を紹介し、研究し、このタイプのプロセスを捉える2つの重要な特徴を提供する。我々は、新しい価値注入が特に扱いにくい機能であることを示し、それを改ざんするための戦略について議論する。
論文参考訳（メタデータ） (2020-06-11T17:26:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。