論文の概要: Operon: Incremental Construction of Ragged Data via Named Dimensions
- arxiv url: http://arxiv.org/abs/2511.16080v1
- Date: Thu, 20 Nov 2025 06:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.493425
- Title: Operon: Incremental Construction of Ragged Data via Named Dimensions
- Title(参考訳): Operon: 名前付き次元によるタグ付きデータのインクリメンタル構築
- Authors: Sungbin Moon, Jiho Park, Suyoung Hwang, Donghyun Koh, Seunghyun Moon, Minhyeong Lee,
- Abstract要約: 既存のワークフローエンジンには、タグ付けされたデータ固有の形状と依存関係を追跡するネイティブサポートがない。
我々はRustベースのワークフローエンジンであるOperonを紹介します。
- 参考スコア(独自算出の注目度): 1.6212518002538465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern data processing workflows frequently encounter ragged data: collections with variable-length elements that arise naturally in domains like natural language processing, scientific measurements, and autonomous AI agents. Existing workflow engines lack native support for tracking the shapes and dependencies inherent to ragged data, forcing users to manage complex indexing and dependency bookkeeping manually. We present Operon, a Rust-based workflow engine that addresses these challenges through a novel formalism of named dimensions with explicit dependency relations. Operon provides a domain-specific language where users declare pipelines with dimension annotations that are statically verified for correctness, while the runtime system dynamically schedules tasks as data shapes are incrementally discovered during execution. We formalize the mathematical foundation for reasoning about partial shapes and prove that Operon's incremental construction algorithm guarantees deterministic and confluent execution in parallel settings. The system's explicit modeling of partially-known states enables robust persistence and recovery mechanisms, while its per-task multi-queue architecture achieves efficient parallelism across heterogeneous task types. Empirical evaluation demonstrates that Operon outperforms an existing workflow engine with 14.94x baseline overhead reduction while maintaining near-linear end-to-end output rates as workloads scale, making it particularly suitable for large-scale data generation pipelines in machine learning applications.
- Abstract(参考訳): 自然言語処理、科学計測、自律型AIエージェントといったドメインで自然に発生する可変長要素を持つコレクション。
既存のワークフローエンジンには、タグ付けされたデータ固有の形状や依存関係を追跡するためのネイティブサポートがないため、ユーザは複雑なインデックス付けや依存性の簿記を手作業で管理せざるを得ない。
我々はRustベースのワークフローエンジンであるOperonを紹介します。
Operonはドメイン固有の言語で、ユーザーは静的に検証されたディメンションアノテーションでパイプラインを宣言し、ランタイムシステムは実行中にデータ形状が漸進的に検出されるようにタスクを動的にスケジュールする。
我々は,部分的な形状を推論するための数学的基礎を定式化し,Operonの漸進的な構成アルゴリズムが並列設定における決定論的かつ収束的実行を保証することを証明した。
システムによる部分的に知られた状態の明示的なモデリングにより、頑健な永続性と回復機構が実現され、一方、タスクごとのマルチキューアーキテクチャは、異種タスクタイプ間の効率的な並列性を実現する。
実証的な評価によると、Operonは既存のワークフローエンジンよりも14.94倍のオーバーヘッド削減を実現し、ワークロードのスケールとしてほぼ直線的なエンドツーエンドの出力速度を維持している。
関連論文リスト
- flowengineR: A Modular and Extensible Framework for Fair and Reproducible Workflow Design in R [0.0]
flowengineRは、再現可能なアルゴリズムパイプラインを構築するためのモジュールとフレームワークを提供するように設計されたRパッケージである。
flowengineRは、データ分割、実行、前処理、トレーニング、インプロセッシング、後処理、評価、レポートのための標準化されたエンジンの統一アーキテクチャを導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-10-29T17:59:19Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - DyFlow: Dynamic Workflow Framework for Agentic Reasoning [79.19799197382478]
DyFlowは動的ワークフロー生成フレームワークで、タスク要求とリアルタイム中間フィードバックに基づいて推論手順を適応的に構築し、調整する。
社会的推論,生物医学的タスク,数学的問題解決,コード生成など,さまざまな領域でDyFlowを体系的に評価する。
結果は、DyFlowが既存のベースラインを大幅に上回り、Pass@kの改善を実現し、さまざまなドメインにわたって堅牢な一般化を示すことを示した。
論文 参考訳(メタデータ) (2025-09-30T10:36:23Z) - Data Dependency-Aware Code Generation from Enhanced UML Sequence Diagrams [54.528185120850274]
本稿では,API2Depという新しいステップバイステップコード生成フレームワークを提案する。
まず、サービス指向アーキテクチャに適した拡張Unified Modeling Language (UML) APIダイアグラムを紹介します。
次に、データフローの重要な役割を認識し、専用のデータ依存推論タスクを導入する。
論文 参考訳(メタデータ) (2025-08-05T12:28:23Z) - Agent WARPP: Workflow Adherence via Runtime Parallel Personalization [0.0]
大規模言語モデル(LLM)はタスク指向対話(TOD)システムにますます適用されてきている。
並列パーソナライゼーション(WARPP)は、マルチエージェントランタイムとオーケストレーションを組み合わせた、トレーニング不要でモジュール化されたフレームワークである。
ユーザ属性に基づいて条件分岐を動的にプルーニングすることで、このフレームワークは推論のオーバーヘッドを減らし、実行時のツール選択を狭める。
論文 参考訳(メタデータ) (2025-07-23T23:27:49Z) - Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。