論文の概要: CEDAR: Context Engineering for Agentic Data Science
- arxiv url: http://arxiv.org/abs/2601.06606v1
- Date: Sat, 10 Jan 2026 16:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.898211
- Title: CEDAR: Context Engineering for Agentic Data Science
- Title(参考訳): CEDAR:エージェントデータサイエンスのためのコンテキストエンジニアリング
- Authors: Rishiraj Saha Roy, Chris Hinze, Luzian Hahn, Fabian Kuech,
- Abstract要約: CEDARはエージェント設定でデータサイエンスタスクを自動化するアプリケーションである。
効果的なコンテキストエンジニアリングによって、これらを緩和できることが示される。
フォールトトレランスとコンテキスト管理は、反復的なコード生成とスマートヒストリレンダリングを通じて導入される。
- 参考スコア(独自算出の注目度): 3.1662160826016756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We demonstrate CEDAR, an application for automating data science (DS) tasks with an agentic setup. Solving DS problems with LLMs is an underexplored area that has immense market value. The challenges are manifold: task complexities, data sizes, computational limitations, and context restrictions. We show that these can be alleviated via effective context engineering. We first impose structure into the initial prompt with DS-specific input fields, that serve as instructions for the agentic system. The solution is then materialized as an enumerated sequence of interleaved plan and code blocks generated by separate LLM agents, providing a readable structure to the context at any step of the workflow. Function calls for generating these intermediate texts, and for corresponding Python code, ensure that data stays local, and only aggregate statistics and associated instructions are injected into LLM prompts. Fault tolerance and context management are introduced via iterative code generation and smart history rendering. The viability of our agentic data scientist is demonstrated using canonical Kaggle challenges.
- Abstract(参考訳): エージェント設定でデータサイエンス(DS)タスクを自動化するアプリケーションであるCEDARを実演する。
LLMによるDS問題の解決は、市場価値の高い未調査領域である。
課題は、タスクの複雑さ、データサイズ、計算制限、コンテキスト制限である。
効果的なコンテキストエンジニアリングによって、これらを緩和できることが示される。
まず、エージェントシステムの命令として機能するDS固有の入力フィールドで初期プロンプトに構造を付加する。
次に、このソリューションは、別個のLCMエージェントによって生成されたインターリーブドプランとコードブロックの列挙シーケンスとして実現され、ワークフローの任意のステップでコンテキストへの可読構造を提供する。
関数はこれらの中間テキストを生成し、対応するPythonコードに対してデータをローカルに保ち、統計と関連する命令のみをLCMプロンプトに注入する。
フォールトトレランスとコンテキスト管理は、反復的なコード生成とスマートヒストリレンダリングを通じて導入される。
エージェントデータ科学者の生存可能性について,標準的なKaggle課題を用いて実証した。
関連論文リスト
- FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Prompting is not Enough: Exploring Knowledge Integration and Controllable Generation [89.65955788873532]
オープンドメイン質問応答(OpenQA)は自然言語処理(NLP)の基盤である。
我々は,知識統合と制御可能生成を探求し,OpenQAの性能向上を目的としたGenKIという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T08:18:33Z) - DatawiseAgent: A Notebook-Centric LLM Agent Framework for Adaptive and Robust Data Science Automation [10.390461679868197]
我々は、適応的で堅牢なデータサイエンス自動化のためのノートブック中心の大規模言語モデル(LLM)エージェントフレームワークであるDatawiseAgentを紹介する。
人間のデータサイエンティストが計算ノートブックでどのように機能するかに触発されたDatawiseAgentは、統一された相互作用表現とマルチステージアーキテクチャを導入した。
論文 参考訳(メタデータ) (2025-03-10T08:32:33Z) - LLaSA: Large Language and Structured Data Assistant [27.452536284165273]
グラフニュートラルネットワーク (GNN) は、Large Language Models (LLM) の入力に付加的なモダリティとして導入された。
構造化データの処理能力を高めるために, textbfLarge textbfLanguage と textbfStructured Data textbfAssistant (LLaSA) を提案する。
論文 参考訳(メタデータ) (2024-11-16T12:27:14Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。