Fugu-MT 論文翻訳(概要): Intelligent Spark Agents: A Modular LangGraph Framework for Scalable, Visualized, and Enhanced Big Data Machine Learning Workflows

論文の概要: Intelligent Spark Agents: A Modular LangGraph Framework for Scalable, Visualized, and Enhanced Big Data Machine Learning Workflows

arxiv url: http://arxiv.org/abs/2412.01490v2
Date: Tue, 03 Dec 2024 04:27:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.573429
Title: Intelligent Spark Agents: A Modular LangGraph Framework for Scalable, Visualized, and Enhanced Big Data Machine Learning Workflows
Title（参考訳）: Intelligent Spark Agents: スケーラブルで視覚化され、強化されたビッグデータ機械学習ワークフローのためのモジュール型LangGraphフレームワーク
Authors: Jialin Wang, Zhihua Duan,
Abstract要約: 本稿では,ビッグデータ環境下でのSparkに基づくビジュアルプロセスAI+機械学習手法を提案する。 Langchainは、言語モデルに基づいたエンドツーエンドアプリケーションの開発を簡単にすることを約束している。
参考スコア（独自算出の注目度）: 1.4582633500696451
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Apache Spark is better suited for load data mining and machine learning that require a lot of iteration by using memory-distributed data sets. Due to the complexity of Spark, the high learning threshold of Scala, and the low reusability of its code, this paper designs and implements a Spark-based visual process AI+machine learning method under a big data environment. On the one hand, it designs component models to describe the basic steps of machine learning, including data preprocessing, feature processing, and model training. Practice and validate evaluation. On the other hand, a visual process modeling tool is provided to support analysts to design machine learning processes, which can be translated automatically into Spark platform code for efficient execution. This tool can greatly improve the AI machine learning efficiency of the Spark platform. This paper introduces the method theory, key technologies, and effectiveness of the tool. This paper explores the application of Spark in the field of large model agents. Langchain, as an open-source framework, is committed to simplifying the development of end-to-end applications based on language models. It provides interfaces for interacting with a variety of large language models, optimizing prompt engineering, and endowing large models with the ability to invoke external tools. LangGraph demonstrates its powerful state management and graph construction capabilities by defining node functions and graphs to build complex agent applications. The development of Spark agent applications based on LangGraph has further promoted the development of AI applications in the big data analysis environment .
Abstract（参考訳）: Apache Sparkは、メモリ分散データセットを使用することで、大量のイテレーションを必要とするロードデータマイニングとマシンラーニングに適している。本稿では,Sparkの複雑さ,Scalaの学習しきい値,コードの再利用可能性の低さから,ビッグデータ環境下でのSparkベースのビジュアルプロセスAI+機械学習手法の設計と実装を行う。一方、データ前処理、特徴処理、モデルトレーニングを含む機械学習の基本ステップを記述するために、コンポーネントモデルを設計する。評価を実践し、評価する。一方、ビジュアルプロセスモデリングツールは、アナリストが機械学習プロセスの設計をサポートするために提供され、効率的な実行のためにSparkプラットフォームコードに自動的に変換することができる。このツールは、SparkプラットフォームのAI機械学習効率を大幅に改善することができる。本稿では,ツールの手法理論,鍵技術,有効性について紹介する。本稿では,大規模モデルエージェントの分野におけるSparkの適用について検討する。オープンソースのフレームワークであるLangchainは、言語モデルに基づいたエンドツーエンドアプリケーションの開発を簡素化することを約束している。さまざまな大きな言語モデルと対話するインターフェースを提供し、迅速なエンジニアリングを最適化し、外部ツールを呼び出す機能を備えた大きなモデルを提供する。 LangGraphは、複雑なエージェントアプリケーションを構築するためにノード関数とグラフを定義することによって、その強力な状態管理とグラフ構築機能を示す。 LangGraphに基づくSparkエージェントアプリケーション開発は、ビッグデータ分析環境におけるAIアプリケーションの開発をさらに促進している。

関連論文リスト

El Agente Gráfico: Structured Execution Graphs for Scientific Agents [7.47895130442454]
タイプセーフな実行環境内に,大規模言語モデル(LLM)による意思決定を組み込んだ単一エージェントフレームワークであるEl Agente Grficoを紹介する。我々のアプローチの中心は、科学概念の構造化された抽象化と、型付きPythonオブジェクトとして計算状態を表すオブジェクトグラフマッパーである。大学レベルの量子化学タスクのスイートにまたがって,自動ベンチマークフレームワークを開発することにより,システムの評価を行う。
論文参考訳（メタデータ） (2026-02-19T23:47:05Z)
Context-Aware Visual Prompting: Automating Geospatial Web Dashboards with Large Language Models and Agent Self-Validation for Decision Support [1.506501956463029]
リスク分析と意思決定のためのWebベースのダッシュボードの開発は、大きな多次元データの難しさに悩まされることが多い。ユーザ定義入力からインタラクティブな地理空間ダッシュボードの作成を自動化する生成AIフレームワークを導入する。
論文参考訳（メタデータ） (2025-10-10T10:58:15Z)
Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文参考訳（メタデータ） (2025-08-12T09:45:19Z)
Polymath: A Self-Optimizing Agent with Dynamic Hierarchical Workflow [6.636150750052998]
大規模言語モデル(LLM)は、詳細な命令と構造化操作からなるエージェントティックを実行することで、複雑なタスクの解決に優れる。多くの研究者がコードベースの表現を通じてこれらの生成と最適化を自動化しようとしてきた。既存の方法は、トレーニングと最適化のためにラベル付きデータセットに頼っていることが多く、現実のダイナミックな問題を解決するのに非効率で柔軟性がない。
論文参考訳（メタデータ） (2025-08-04T23:50:02Z)
Provenance Tracking in Large-Scale Machine Learning Systems [0.0]
y4MLは、W3C PROVとProvProvML標準に準拠したフォーマットでデータを収集するように設計されたツールである。 y4MLはyProvフレームワークと完全に統合されており、ワークフロー管理システムを通じて実行されるタスクの高レベルなペアリングを可能にする。
論文参考訳（メタデータ） (2025-07-01T14:10:02Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文参考訳（メタデータ） (2024-12-23T08:29:57Z)
Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL) Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文参考訳（メタデータ） (2024-12-13T18:40:10Z)
Research on the Application of Spark Streaming Real-Time Data Analysis System and large language model Intelligent Agents [1.4582633500696451]
本研究では、ビッグデータ環境におけるリアルタイムデータ分析システムを強化するために、Agent AIとLangGraphの統合について検討する。提案したフレームワークは、静的で非効率なステートフル計算の限界を克服し、人間の介入の欠如を克服する。システムアーキテクチャにはApache Spark Streaming、Kafka、LangGraphが組み込まれ、高性能な感情分析システムを構築する。
論文参考訳（メタデータ） (2024-12-10T05:51:11Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Deep Fast Machine Learning Utils: A Python Library for Streamlined Machine Learning Prototyping [0.0]
Deep Fast Machine Learning Utils (DFMLU)ライブラリは、機械学習プロセスのアスペクトを自動化および拡張するために設計されたツールを提供する。 DFMLUはモデル開発とデータ処理をサポートする機能を提供します。この原稿はDFMLUの機能の概要を示し、各ツールにPythonの例を提供している。
論文参考訳（メタデータ） (2024-09-14T21:39:17Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
Towards an Integrated Performance Framework for Fire Science and Management Workflows [0.0]
本稿では,人工知能と機械学習(AI/ML)による性能評価と最適化手法を提案する。パフォーマンスデータ収集、予測、最適化を対象とする、関連するAI/MLフレームワークが、ワイルドファイアサイエンスアプリケーションに適用される。
論文参考訳（メタデータ） (2024-07-30T22:37:25Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
A Unified Active Learning Framework for Annotating Graph Data with Application to Software Source Code Performance Prediction [4.572330678291241]
ソフトウェアの性能予測を専門とする一貫したアクティブラーニングフレームワークを開発した。能動的・受動的学習に異なるレベルの情報を用いることが与える影響について検討する。我々のアプローチは、異なるソフトウェアパフォーマンス予測のためのAIモデルへの投資を改善することを目的としています。
論文参考訳（メタデータ） (2023-04-06T14:00:48Z)
Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文参考訳（メタデータ） (2022-03-02T19:57:32Z)
Fine-Tuning Data Structures for Analytical Query Processing [0.5156484100374058]
分析ワークロードの効率的な計算を支援するために,データ構造を自動的に選択するフレームワークを提案する。本稿では,クエリ処理パラダイムの背景にあるアルゴリズムを表現可能な,新しい低レベル中間言語を提案する。我々は,我々のフレームワークが生成したコードの性能が,最先端の分析クエリエンジンに匹敵するか,あるいは同等であることを示す。
論文参考訳（メタデータ） (2021-12-24T16:36:35Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Automated Evolutionary Approach for the Design of Composite Machine Learning Pipelines [48.7576911714538]
提案手法は、複合機械学習パイプラインの設計を自動化することを目的としている。パイプラインをカスタマイズ可能なグラフベースの構造で設計し、得られた結果を分析して再生する。このアプローチのソフトウェア実装は、オープンソースフレームワークとして紹介されている。
論文参考訳（メタデータ） (2021-06-26T23:19:06Z)
AutoGL: A Library for Automated Graph Learning [67.63587865669372]
グラフ上での機械学習を自動化するための,最初の専用ライブラリであるAutomated Graph Learning(AutoGL)を紹介する。 AutoGLはオープンソースで、使いやすく、拡張も柔軟です。また、パイプラインのカスタマイズとアプリケーションの強化を容易にする、AutoGLの軽量バージョンであるAutoGL-lightも紹介します。
論文参考訳（メタデータ） (2021-04-11T10:49:23Z)
Learning Discrete Energy-based Models via Auxiliary-variable Local Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文参考訳（メタデータ） (2020-11-10T19:31:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。