論文の概要: PublicAgent: Multi-Agent Design Principles From an LLM-Based Open Data Analysis Framework
- arxiv url: http://arxiv.org/abs/2511.03023v1
- Date: Tue, 04 Nov 2025 21:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.258243
- Title: PublicAgent: Multi-Agent Design Principles From an LLM-Based Open Data Analysis Framework
- Title(参考訳): PublicAgent: LLMベースのオープンデータ分析フレームワークからのマルチエージェント設計原則
- Authors: Sina Montazeri, Yunhe Feng, Kewei Sha,
- Abstract要約: 大規模言語モデルは個々のタスクを約束するが、エンドツーエンドの分析は基本的な制限を露呈する。
PublicAgentは、意図の明確化、データセット発見、分析、レポートのための特殊なエージェントへの分解を通じて、これらの制限に対処するマルチエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 5.863391019411233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open data repositories hold potential for evidence-based decision-making, yet are inaccessible to non-experts lacking expertise in dataset discovery, schema mapping, and statistical analysis. Large language models show promise for individual tasks, but end-to-end analytical workflows expose fundamental limitations: attention dilutes across growing contexts, specialized reasoning patterns interfere, and errors propagate undetected. We present PublicAgent, a multi-agent framework that addresses these limitations through decomposition into specialized agents for intent clarification, dataset discovery, analysis, and reporting. This architecture maintains focused attention within agent contexts and enables validation at each stage. Evaluation across five models and 50 queries derives five design principles for multi-agent LLM systems. First, specialization provides value independent of model strength--even the strongest model shows 97.5% agent win rates, with benefits orthogonal to model scale. Second, agents divide into universal (discovery, analysis) and conditional (report, intent) categories. Universal agents show consistent effectiveness (std dev 12.4%) while conditional agents vary by model (std dev 20.5%). Third, agents mitigate distinct failure modes--removing discovery or analysis causes catastrophic failures (243-280 instances), while removing report or intent causes quality degradation. Fourth, architectural benefits persist across task complexity with stable win rates (86-92% analysis, 84-94% discovery), indicating workflow management value rather than reasoning enhancement. Fifth, wide variance in agent effectiveness across models (42-96% for analysis) requires model-aware architecture design. These principles guide when and why specialization is necessary for complex analytical workflows while enabling broader access to public data through natural language interfaces.
- Abstract(参考訳): オープンデータリポジトリはエビデンスベースの意思決定の可能性を秘めているが、データセット発見、スキーママッピング、統計分析の専門知識に欠ける非専門家にはアクセスできない。
大規模言語モデルは個々のタスクを約束するが、エンドツーエンドの分析ワークフローは、成長するコンテキストにまたがる注意の希薄化、特別な推論パターンの干渉、検出されていないエラーの伝播など、基本的な制限を露呈する。
PublicAgentは、意図の明確化、データセット発見、分析、レポートのための特殊なエージェントへの分解を通じて、これらの制限に対処するマルチエージェントフレームワークである。
このアーキテクチャは、エージェントコンテキストに焦点を合わせ、各ステージで検証を可能にする。
5つのモデルと50のクエリによる評価は、マルチエージェントLLMシステムのための5つの設計原則を導出する。
第一に、特殊化はモデル強度に依存しない価値を提供する。最強のモデルでさえ、97.5%のエージェントの勝利率を示し、モデルスケールに直交する利益を示す。第二に、エージェントは普遍的(発見、分析)と条件的(報告、意図)のカテゴリーに分けられる。普遍的エージェントは、一貫した効率(std dev 12.4%)を示し、条件的エージェントはモデルによって異なる(std dev 20.5%)。第三に、エージェントは、異なる障害モードを緩和する。発見または分析を除去することは、破滅的な失敗を引き起こす(243-280インスタンス)。
第4に、安定した利率(86-92%の分析、84-94%の発見)でタスクの複雑さをまたいでアーキテクチャ上のメリットが持続する。
第5に、モデル間のエージェントの有効性の広範なばらつき(分析では42-96%)には、モデル対応アーキテクチャ設計が必要である。
これらの原則は、複雑な分析ワークフローにおいて、いつ、なぜ特殊化が必要なのかをガイドし、自然言語インターフェースを通じてパブリックデータへの広範なアクセスを可能にする。
関連論文リスト
- TimeSeriesScientist: A General-Purpose AI Agent for Time Series Analysis [25.377586527585503]
TimeSeriesScientist(TSci)は時系列予測のための一般的なドメインに依存しないフレームワークである。
これはそれぞれ平均10.4%と38.2%の予測誤差を減少させる。
透明な自然言語の合理性と包括的な報告により、TSciは予測をホワイトボックスシステムに変換する。
論文 参考訳(メタデータ) (2025-10-02T00:18:59Z) - Scaling Generalist Data-Analytic Agents [95.05161133349242]
DataMindは、汎用データ分析エージェントを構築するために設計されたスケーラブルなデータ合成およびエージェントトレーニングレシピである。
DataMindは、オープンソースのデータ分析エージェントを構築する上で重要な3つの課題に取り組む。
論文 参考訳(メタデータ) (2025-09-29T17:23:08Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery [54.79763887844838]
大規模言語モデル(LLM)と自律エージェントの統合は、自動推論とタスク実行を通じて科学的発見を促進する大きな可能性を秘めている。
本稿では,薬物発見におけるエンドツーエンド科学のために設計されたパラメータ化推論アーキテクチャを備えたLSMベースのエージェントシステムであるDrarmPilotを紹介する。
DrugPilot は ReAct や LoT のような最先端のエージェントよりも優れており、タスク完了率は98.0%、93.5%、64.0%である。
論文 参考訳(メタデータ) (2025-05-20T05:18:15Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Towards Human-Level Understanding of Complex Process Engineering Schematics: A Pedagogical, Introspective Multi-Agent Framework for Open-Domain Question Answering [0.0]
化学・プロセス産業では、プロセス・フロー・ダイアグラム(PFD)とパイプ・アンド・インスツルメンテーション・ダイアグラム(P&ID)が設計、建設、保守に不可欠である。
生成型AIの最近の進歩は、ビジュアル質問回答(VQA)のプロセス図の理解と解釈の約束を示している。
本稿では,階層的かつマルチエージェントなRetrieval Augmented Generation(RAG)フレームワークを用いた,セキュアでオンプレミスなエンタープライズソリューションを提案する。
論文 参考訳(メタデータ) (2024-08-24T19:34:04Z) - DrugAgent: Multi-Agent Large Language Model-Based Reasoning for Drug-Target Interaction Prediction [8.98329812378801]
DrugAgentは、薬物と薬物の相互作用を予測するためのマルチエージェントシステムである。
複数の専門的な視点と透明な推論を組み合わせる。
我々のアプローチは、予測毎に詳細な人間解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2024-08-23T21:24:59Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。