Fugu-MT 論文翻訳(概要): Towards Automated Data Sciences with Natural Language and SageCopilot: Practices and Lessons Learned

論文の概要: Towards Automated Data Sciences with Natural Language and SageCopilot: Practices and Lessons Learned

arxiv url: http://arxiv.org/abs/2407.21040v1
Date: Sun, 21 Jul 2024 08:58:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-04 19:28:03.163608
Title: Towards Automated Data Sciences with Natural Language and SageCopilot: Practices and Lessons Learned
Title（参考訳）: 自然言語とSageCopilotによるデータサイエンスの自動化に向けて--実践と教訓
Authors: Yuan Liao, Jiang Bian, Yuhui Yun, Shuo Wang, Yubo Zhang, Jiaming Chu, Tao Wang, Kewei Li, Yuchen Li, Xuhong Li, Shilei Ji, Haoyi Xiong,
Abstract要約: 本研究では,データサイエンスパイプラインを自動化した先進的な産業レベルのシステムであるSageCopilotを紹介する。 SageCopilotは、ICL(In-Context Learning)を通じてユーザの入力を実行可能なスクリプトに書き換え、結果レポートと視覚化のためのスクリプトを実行するオンラインコンポーネントである。 Chain-of-Thoughtやpush-tuningといったトレンド戦略のリストは、パフォーマンス向上のためにSageCopilotの拡張に使用されている。
参考スコア（独自算出の注目度）: 29.847460840760334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While the field of NL2SQL has made significant advancements in translating natural language instructions into executable SQL scripts for data querying and processing, achieving full automation within the broader data science pipeline - encompassing data querying, analysis, visualization, and reporting - remains a complex challenge. This study introduces SageCopilot, an advanced, industry-grade system system that automates the data science pipeline by integrating Large Language Models (LLMs), Autonomous Agents (AutoAgents), and Language User Interfaces (LUIs). Specifically, SageCopilot incorporates a two-phase design: an online component refining users' inputs into executable scripts through In-Context Learning (ICL) and running the scripts for results reporting & visualization, and an offline preparing demonstrations requested by ICL in the online phase. A list of trending strategies such as Chain-of-Thought and prompt-tuning have been used to augment SageCopilot for enhanced performance. Through rigorous testing and comparative analysis against prompt-based solutions, SageCopilot has been empirically validated to achieve superior end-to-end performance in generating or executing scripts and offering results with visualization, backed by real-world datasets. Our in-depth ablation studies highlight the individual contributions of various components and strategies used by SageCopilot to the end-to-end correctness for data sciences.
Abstract（参考訳）: NL2SQLの分野は、データクエリと処理のための実行可能SQLスクリプトへの自然言語命令の変換において、大きな進歩を遂げているが、データクエリ、分析、可視化、レポートを含む、より広範なデータサイエンスパイプライン内で完全な自動化を実現することは、依然として複雑な課題である。本研究では、大規模言語モデル(LLM)、自律エージェント(AutoAgents)、言語ユーザインタフェース(LUIs)を統合することにより、データサイエンスパイプラインを自動化する高度な産業レベルのシステムであるSageCopilotを紹介する。具体的には、SageCopilotは2段階の設計を取り入れている: オンラインコンポーネントは、インコンテキストラーニング(ICL)を通じてユーザの入力を実行可能なスクリプトに精製し、結果のレポートと視覚化のためのスクリプトを実行し、オンラインフェーズでICLが要求するオフライン準備デモを実行する。 Chain-of-Thoughtやpush-tuningといったトレンド戦略のリストは、パフォーマンス向上のためにSageCopilotの拡張に使用されている。厳密なテストとプロンプトベースのソリューションの比較分析を通じて、SageCopilotは、実世界のデータセットを背景としたスクリプトの生成や実行において、優れたエンドツーエンドパフォーマンスを実現するために、実証的に検証されている。当社の詳細なアブレーション調査では、SageCopilotが使用するさまざまなコンポーネントと戦略の個々の貢献を、データサイエンスのエンドツーエンドの正しさに当てはめています。

関連論文リスト

Automated Snippet-Alignment Data Augmentation for Code Translation [51.59756295898321]
並列コーパスはプログラムアライメント(PA)とスニペットアライメント(SA)データに分類される。本稿では,LSMを利用してSAデータを自動的に生成するデータ拡張手法を提案する。 TransCoder-testの実験では、拡張SAデータと2段階のトレーニングアプローチを組み合わせることで、一貫した改善が得られます。
論文参考訳（メタデータ） (2025-10-16T02:30:24Z)
LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。 LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文参考訳（メタデータ） (2025-09-28T17:31:38Z)
Data Agent: A Holistic Architecture for Orchestrating Data+AI Ecosystems [8.816332263275305]
従来のData+AIシステムは、システムパイプラインのオーケストレーションに人間の専門家に大きく依存しています。既存のData+AIシステムは、セマンティック理解、推論、計画の能力に制限がある。データエージェント(Data Agent) - データ+AIエコシステムのオーケストレーションを目的とした包括的なアーキテクチャ。
論文参考訳（メタデータ） (2025-07-02T11:04:49Z)
Genicious: Contextual Few-shot Prompting for Insights Discovery [1.0641453271784744]
Geniciousは、コンテキストの少ないプロンプトを活用するエンドツーエンドツールである。我々は、文脈的に数発のプロンプトを活用するエンドツーエンドツールを開発し、レイテンシ、精度、スケーラビリティの点で優れたパフォーマンスを実現した。
論文参考訳（メタデータ） (2025-03-15T09:27:59Z)
DatawiseAgent: A Notebook-Centric LLM Agent Framework for Automated Data Science [4.1431677219677185]
DatawiseAgentはノートブック中心のエージェントフレームワークで、ユーザ、エージェント、計算環境間のインタラクションを統合する。 DSFライクな計画、インクリメンタルな実行、自己老化、ポストフィルタの4つのステージを編成する。一貫して、複数のモデル設定で最先端のメソッドを上回るか、マッチする。
論文参考訳（メタデータ） (2025-03-10T08:32:33Z)
EICopilot: Search and Explore Enterprise Information over Large-scale Knowledge Graphs with LLM-driven Agents [16.65035686422735]
本稿では,EICopilotについて紹介する。EICopilotは,オンライン知識グラフ内の企業登録データの検索と探索を容易にするエージェントベースの新しいソリューションである。このソリューションはGremlinスクリプトを自動的に生成して実行し、複雑な企業関係の効率的な要約を提供する。 EICopilotの速度と精度がベースライン法よりも優れていることを示す実証評価を行った。
論文参考訳（メタデータ） (2025-01-23T15:22:25Z)
The Synergy of LLMs & RL Unlocks Offline Learning of Generalizable Language-Conditioned Policies with Low-fidelity Data [50.544186914115045]
TEDUOは、シンボリック環境におけるオフライン言語条件のポリシー学習のための、新しいトレーニングパイプラインである。まず、オフラインデータセットをよりリッチなアノテーションで拡張する自動化ツールとして、次に、一般化可能な命令フォローエージェントとして使用します。
論文参考訳（メタデータ） (2024-12-09T18:43:56Z)
ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis [80.34000499166648]
より関連性の高いツールの組み合わせをサンプリングするためのグラフベースのサンプリング戦略と、コヒーレントな対話の合成を導く計画を作成するための計画生成戦略を提案する。ツールフローで生成した8000の合成対話を用いてLLaMA-3.1-8BにSFTを適用した。その結果,GPT-4に匹敵するツールコール性能が得られた。
論文参考訳（メタデータ） (2024-10-24T05:45:04Z)
Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。 LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Automating Pharmacovigilance Evidence Generation: Using Large Language Models to Produce Context-Aware SQL [0.0]
検索拡張世代(RAG)フレームワークでOpenAIのGPT-4モデルを利用する。ビジネスコンテキストドキュメントはビジネスコンテキストドキュメントでリッチ化され、NLQを構造化クエリ言語クエリに変換する。複雑性の高いクエリが除外された場合、パフォーマンスは最大85%向上した。
論文参考訳（メタデータ） (2024-06-15T17:07:31Z)
Few-shot learning for automated content analysis: Efficient coding of arguments and claims in the debate on arms deliveries to Ukraine [0.9576975587953563]
トランスフォーマーニューラルネットワークに基づく事前学習言語モデル(PLM)は、通信科学における自動コンテンツ分析を改善する大きな機会を提供する。これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整 PLM の訓練データ作成に必要な労力など、適用分野における手法の普及を妨げている。我々は、われわれのアプローチを、コミュニケーション科学の現実的なユースケースで試し、主張や議論を自動的に検出し、ドイツによるウクライナへの武器の配達に関する議論におけるスタンスと合わせて検証する。
論文参考訳（メタデータ） (2023-12-28T11:39:08Z)
SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文参考訳（メタデータ） (2023-05-26T21:39:05Z)
ChatGPT as your Personal Data Scientist [0.9689893038619583]
本稿では,ChatGPTを用いた対話型データサイエンスフレームワークについて紹介する。データビジュアライゼーション、タスクの定式化、予測エンジニアリング、結果概要と勧告の4つのダイアログ状態を中心に、私たちのモデルが中心になっています。要約して,会話データ科学の新たな概念が実現可能であることを証明するとともに,複雑なタスクを解く上でLLMが有効であることを示すエンド・ツー・エンド・エンド・システムを開発した。
論文参考訳（メタデータ） (2023-05-23T04:00:16Z)
Explaining Patterns in Data with Language Models via Interpretable Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。 iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。 fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文参考訳（メタデータ） (2022-10-04T18:32:14Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。