論文の概要: Spark Policy Toolkit: Semantic Contracts and Scalable Execution for Policy Learning in Spark
- arxiv url: http://arxiv.org/abs/2604.25061v1
- Date: Mon, 27 Apr 2026 23:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.632685
- Title: Spark Policy Toolkit: Semantic Contracts and Scalable Execution for Policy Learning in Spark
- Title(参考訳): Spark Policy Toolkit: Sparkにおけるポリシー学習のためのセマンティックコントラクトとスケーラブルな実行
- Authors: Zeyu Bai,
- Abstract要約: 本稿では,Sparkにおけるスケーラブルなポリシ学習のためのセマンティクス管理システムツールキットであるSpark Policy Toolkitを紹介する。
このツールキットは、2つのSparkネイティブプリミティブを提供する:mapInPandasとmapInArrowによるパーティション駆動ベクトル化推論。
評価には,実践的なベースラインのはしご,バックエンドのパリティチェック,スプリットサーチスケールの計測結果,合成とヒルストロームのエンドツーエンドポリシーの保存が組み合わされている。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Custom policy-learning pipelines in Spark fail for two coupled systems reasons: rowwise Python execution makes inference impractical, and driver-side candidate materialization makes split search fragile at feature scale. We present Spark Policy Toolkit, a semantics-governed systems toolkit for scalable policy learning in Spark. The toolkit provides two Spark-native primitives: partition-initialized vectorized inference through mapInPandas and mapInArrow, and collect-less split search that scores candidates on executors. Both primitives are governed by one fixed-input semantic contract: the same rows, feature order, treatment vocabulary, preprocessing manifest, and split boundaries must preserve per-row score vectors, best-split decisions, and end-to-end learned policy outputs. The evaluation combines practical baseline ladders, backend parity checks, measured split-search scale results, synthetic and Hillstrom end-to-end policy preservation, missingness stress, partition and order perturbation tests, quantile-boundary sensitivity, and a concrete adversarial failure catalog. On a 40-worker Databricks cluster, mapInArrow reaches 4.72M rows/s at 10M matched rows and 7.23M rows/s at 50M rows, while collect-less split search remains valid from F = 10 through F = 1000 with 124000 candidate rows, where the driver-collect baseline is intentionally skipped. Across 24 backend-ablation settings, mapInArrow wins 18 while mapInPandas wins 6, so the paper treats backend choice as workload-dependent rather than universal. Once the fixed-input lock is enforced, all six tested repartition/coalesce/shuffle perturbations preserve identical signatures; before lock, all six drift. The central result is not speed alone: throughput and collect-less execution are the mechanisms that let policy semantics survive at Spark scale.
- Abstract(参考訳): Sparkのカスタムポリシ学習パイプラインは、2つの結合されたシステムで失敗する。
本稿では,Sparkにおけるスケーラブルなポリシ学習のためのセマンティクス管理システムツールキットであるSpark Policy Toolkitを紹介する。
このツールキットは、2つのSparkネイティブプリミティブを提供する。mapInPandasとmapInArrowによるパーティション初期化ベクトル化推論と、エグゼキュータの候補をスコアするコレクションレス分割検索だ。
どちらのプリミティブも1つの固定入力セマンティックコントラクトによって管理される: 同じ行、特徴順序、処理語彙、前処理マニフェスト、分割境界は、ロースコアベクトル、最良の分割決定、エンドツーエンドの学習ポリシー出力を保持する必要がある。
評価には, 実用的ベースラインはしご, バックエンドパリティチェック, 測定された分割探索尺度, 合成およびヒルストロームのエンドツーエンドポリシー保存, 欠落ストレス, 分割および順序摂動試験, 量子境界感度, コンクリート対向破壊カタログが組み合わされている。
40-workerのDatabricksクラスタでは、mapInArrowは10Mのマッチ行で4.72M行、50Mの行で7.23M行に到達し、一方、F = 10からF = 1000までの分割検索は124,000の候補行で有効である。
24回のバックエンドアブレーション設定で、mapInArrowは18で、mapInPandasは6で勝利している。
固定入力ロックが強制されると、6つの試験された分割/コア/シャッフルの摂動は同一のシグネチャを保持し、ロック前に6つのドリフトを全て保持する。
スループットとコレクションレス実行は、ポリシセマンティクスをSparkスケールで存続させるメカニズムです。
関連論文リスト
- Efficient Test-Time Inference via Deterministic Exploration of Truncated Decoding Trees [68.04613115686509]
自己整合性は、複数の推論トレースを並列にサンプリングし、投票することで、推論時間のパフォーマンスを向上させる。
そこで本研究では,切り落された標本を伐採木として扱う決定論的復号法であるDLE(Distinct Leafion)を提案する。
DLEは高品質な推論トレースを調査し、数学、コーディング、一般的な推論タスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-04-22T12:42:03Z) - SelRoute: Query-Type-Aware Routing for Long-Term Conversational Memory Retrieval [0.0]
SelRouteは、クエリタイプに基づいて、各クエリを専用のパイプラインにルーティングするフレームワークである。
LongMemEval_Mでは、bge-base-en-v1.5 (109Mパラメータ)で0.800、bge-small-en-v1.5 (109Mパラメータ)で0.786のRecall@5を達成する。
FTS5のみを使用したゼロMLベースラインは0.692のNDCG@5を達成する。
論文 参考訳(メタデータ) (2026-04-02T18:02:59Z) - Evidence Units: Ontology-Grounded Document Organization for Parser-Independent Retrieval [0.0]
要素レベルの索引付けは、独立したチャンクとして解析された全ての要素を扱い、セマンティックな結合単位を別々の検索候補に分散させる。
本稿では,エビデンス・ユニット(EU)を構成するパイプラインについて述べる。
論文 参考訳(メタデータ) (2026-04-01T05:32:16Z) - HISA: Efficient Hierarchical Indexing for Fine-Grained Sparse Attention [62.79085204939384]
HISA (Hierarchical Indexed Sparse Attention) は、平らなトークンスキャンから2段階の階層的な手順に検索パスを書き換える。
カーネルレベルのベンチマークでは、HISAは64Kコンテキストでの高速化を実現している。
論文 参考訳(メタデータ) (2026-03-30T13:59:51Z) - MDKeyChunker: Single-Call LLM Enrichment with Rolling Keys and Key-Based Restructuring for High-Accuracy RAG [0.0]
RAGパイプラインは通常、ドキュメント構造を無視し、境界を越えたセマンティックユニットを断片化し、メタデータ抽出のためにチャンク毎の複数のLCMコールを必要とする固定サイズのチャンクに依存している。
MDKeyChunkerはMarkdown文書のための3段階パイプラインであり、ヘッダ、コードブロック、テーブル、リストをアトミック単位として扱う構造対応チャンキングを実行する。
シングルコール設計では、1つのLSM呼び出しで7つのメタデータフィールド全てを抽出し、フィールド毎の抽出パスを分離する必要がなくなる。
ローリングキーの伝搬は、手動のスコアリングをLLMネイティブなセマンティックマッチングに置き換える。
論文 参考訳(メタデータ) (2026-03-08T07:28:53Z) - BlackboxNLP-2025 MIB Shared Task: Exploring Ensemble Strategies for Circuit Localization Methods [64.5040037515574]
2つ以上の回路ローカライズ手法を組み込むことで性能が向上するかどうかを検討する。
並列アンサンブルでは、各エッジに割り当てられた属性スコアを異なる方法で組み合わせる。
逐次アンサンブルでは、EAP-IGを用いて得られたエッジ属性スコアを、より高価で高精度な回路識別法のためのウォームスタートとして使用する。
論文 参考訳(メタデータ) (2025-10-08T09:39:40Z) - Inference-time sparse attention with asymmetric indexing [23.305984099821618]
トランスモデルの自己アテンションは、キーベクトルを値ベクトルにマッピングするインクリメンタルな連想メモリである。
自己注意の高速化の1つの方法は、k-meansのような標準的なパーティショニング手法に基づいたGPU互換のベクトル探索アルゴリズムを採用することである。
本稿ではこれらの問題を克服したSaapを紹介する。
非対称な索引付け手法で、キーとクエリのパーティションを区別し、データ適応型スパーシティパターンで自己アテンションを近似する。
論文 参考訳(メタデータ) (2025-02-12T09:39:54Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Wasserstein Distance Regularized Sequence Representation for Text
Matching in Asymmetrical Domains [51.91456788949489]
WD-Matchと呼ばれる非対称領域におけるテキストマッチングに適した新しいマッチング手法を提案する。
WD-Matchでは、ワッサーシュタイン距離に基づく正規化器が定義され、異なる領域から投影される特徴ベクトルを正規化する。
WD-Matchのトレーニングプロセスは、ワッサースタイン距離によって正規化されるマッチング損失を最小限に抑えるゲームに相当する。
論文 参考訳(メタデータ) (2020-10-15T12:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。