Fugu-MT 論文翻訳(概要): Machine Learning as a Tool (MLAT): A Framework for Integrating Statistical ML Models as Callable Tools within LLM Agent Workflows

論文の概要: Machine Learning as a Tool (MLAT): A Framework for Integrating Statistical ML Models as Callable Tools within LLM Agent Workflows

arxiv url: http://arxiv.org/abs/2602.14295v1
Date: Sun, 15 Feb 2026 20:00:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-17 16:22:49.941214
Title: Machine Learning as a Tool (MLAT): A Framework for Integrating Statistical ML Models as Callable Tools within LLM Agent Workflows
Title（参考訳）: 機械学習・アズ・ア・ツール(MLAT) - LLMエージェントワークフロー内の呼び出し可能なツールとして統計MLモデルを統合するためのフレームワーク
Authors: Edwin Chen, Zulekha Bibi,
Abstract要約: 機械学習・アズ・ア・ツール(MLAT: Machine Learning as a Tool)は、学習前の統計的機械学習モデルを大言語モデル(LLM)エージェント内で呼び出し可能なツールとして公開するデザインパターンである。 ML推論を静的な前処理ステップとして扱う従来のパイプラインとは異なり、MLATでは、モデルをWeb検索、データベースクエリ、APIとともにファーストクラスのツールとして位置付けている。我々は、発見通話記録をML予測価格でプロの提案に変換するパイロット生産システムであるPitchCraftを紹介する。
参考スコア（独自算出の注目度）: 0.152622865871084
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Machine Learning as a Tool (MLAT), a design pattern in which pre-trained statistical machine learning models are exposed as callable tools within large language model (LLM) agent workflows. This allows an orchestrating agent to invoke quantitative predictions when needed and reason about their outputs in context. Unlike conventional pipelines that treat ML inference as a static preprocessing step, MLAT positions the model as a first-class tool alongside web search, database queries, and APIs, enabling the LLM to decide when and how to use it based on conversational context. To validate MLAT, we present PitchCraft, a pilot production system that converts discovery call recordings into professional proposals with ML-predicted pricing. The system uses two agents: a Research Agent that gathers prospect intelligence via parallel tool calls, and a Draft Agent that invokes an XGBoost pricing model as a tool call and generates a complete proposal through structured outputs. The pricing model, trained on 70 examples combining real and human-verified synthetic data, achieves R^2 = 0.807 on held-out data with a mean absolute error of 3688 USD. The system reduces proposal generation time from multiple hours to under 10 minutes. We describe the MLAT framework, structured output architecture, training methodology under extreme data scarcity, and sensitivity analysis demonstrating meaningful learned relationships. MLAT generalizes to domains requiring quantitative estimation combined with contextual reasoning.
Abstract（参考訳）: 機械学習・アズ・ア・ツール(MLAT: Machine Learning as a Tool)は、学習済みの統計的機械学習モデルを、大規模言語モデル(LLM)エージェントワークフロー内で呼び出し可能なツールとして公開するデザインパターンである。これにより、オーケストレーションエージェントは必要に応じて定量的な予測を実行し、コンテキスト内のアウトプットを推論することができる。 ML推論を静的な前処理ステップとして扱う従来のパイプラインとは異なり、MLATはモデルをWeb検索、データベースクエリ、APIとともにファーストクラスのツールとして位置付け、LLMが会話コンテキストに基づいていつ、どのように使用するかを決定することができる。 MLATを検証するため,MLATを予測価格でプロの提案に変換するパイロット生産システムであるPitchCraftを提案する。このシステムは2つのエージェントを使用する: 並列ツールコールを介して予測インテリジェンスを収集するリサーチエージェントと、ツールコールとしてXGBoost価格モデルを呼び出すドラフトエージェントで、構造化された出力を通じて完全な提案を生成する。 R^2 = 0.807, 平均絶対誤差3688 USDである。このシステムは提案生成時間を複数時間から10分以内に短縮する。本稿では、MLATフレームワーク、構造化出力アーキテクチャ、極度のデータ不足下でのトレーニング手法、有意義な学習関係を示す感度分析について述べる。 MLATは定量的推定を必要とする領域に一般化し、文脈推論と組み合わせる。

関連論文リスト

MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文参考訳（メタデータ） (2026-01-31T23:19:39Z)
ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文参考訳（メタデータ） (2025-11-29T23:59:40Z)
Z-Space: A Multi-Agent Tool Orchestration Framework for Enterprise-Grade LLM Automation [3.518072776386001]
本稿では,データ生成指向型マルチエージェント協調ツール実行フレームワークZ-Spaceを提案する。このフレームワークはElemeプラットフォームの技術部門にデプロイされており、大規模なテストデータ生成シナリオを提供している。生産データは、ツール推論における平均トークン消費を96.26%削減していることを示している。
論文参考訳（メタデータ） (2025-11-23T03:59:14Z)
DELM: a Python toolkit for Data Extraction with Language Models [0.0]
DELM(Data extract with Language Models)は、オープンソースのPythonツールキットで、データ抽出パイプラインの迅速な実験的なイテレーション用に設計されている。定型的なコードを最小限にし、構造化出力、ビルトインバリデーション、フレキシブルなデータローディングとスコアリング戦略、効率的なバッチ処理を備えたモジュール化されたフレームワークを提供する。また、再試行ロジック、結果キャッシング、詳細なコストトラッキング、包括的な構成管理など、LLM APIの動作に対する堅牢なサポートも含まれている。
論文参考訳（メタデータ） (2025-09-24T23:47:55Z)
OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文参考訳（メタデータ） (2024-10-03T20:01:09Z)
AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning [93.96463520716759]
大規模言語モデル(LLM)エージェントは、精度と幻覚を高めるために外部ツールと知識を活用する際、印象的な能力を示した。本稿では、LLMエージェントを最適化して提供されたツールを効果的に活用し、与えられたタスクのパフォーマンスを向上させる新しい自動化フレームワークであるAvaTaRを紹介する。
論文参考訳（メタデータ） (2024-06-17T04:20:02Z)
Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。 ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文参考訳（メタデータ） (2024-01-30T07:09:48Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)
Benchmarking Automated Machine Learning Methods for Price Forecasting Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。 CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文参考訳（メタデータ） (2023-04-28T10:27:38Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文参考訳（メタデータ） (2021-06-14T11:42:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。