論文の概要: "Skill issues'': data-centric optimization of lakehouse agents
- arxiv url: http://arxiv.org/abs/2606.01185v1
- Date: Sun, 31 May 2026 11:58:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.369901
- Title: "Skill issues'': data-centric optimization of lakehouse agents
- Title(参考訳): 「技能問題」:湖底エージェントのデータ中心最適化
- Authors: Nicole Rose Schneider, Davide Ghilardi, Giacomo Piccinini, Jacopo Tagliabue,
- Abstract要約: 本研究では,バプラン湖の分水池で作業するエージェントのアーティファクトを最適化する方法を示す。
本稿では,タスク検証ペアを生成し,サンドボックス内の候補スキルを実行し,トレースレベル信号とレイクハウス状態のプログラムチェックを用いてトラジェクトリをスコアするデータ中心最適化パイプラインを提案する。
- 参考スコア(独自算出の注目度): 2.8558664643005525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coding agents are becoming users of data infrastructure, but their success depends not only on model quality: it also depends on the skills and environment files that teach agents how to use a system. We study how to optimize these artifacts for agents operating on a branching lakehouse, Bauplan. In our setting, headless APIs and Git-like data primitives expose data workflows through code, branches, commits, and merges. Our central observation is that a branching lakehouse turns data-agent evaluation from an output-matching problem into a state-verification problem: agent-generated pipeline code induces concrete, inspectable lakehouse changes. We present a data-centric optimization pipeline that generates task-verifier pairs, executes candidate skills in isolated sandboxes, and scores trajectories using both trace-level signals and programmatic checks over lakehouse state. In a preliminary evaluation on 25 tasks, optimized skills improve accuracy by 31.9%. These results suggest that write-path data workflows provide a useful substrate for optimizing agent skills beyond read-only tasks.
- Abstract(参考訳): コーディングエージェントはデータインフラストラクチャのユーザになりつつあるが、その成功はモデル品質だけでなく、エージェントにシステムの使用方法を教えるスキルや環境ファイルにも依存している。
本研究では,これらのアーティファクトを,バプランの分岐湖ハウスで作業するエージェントに最適化する方法について検討する。
私たちの設定では、ヘッドレスAPIとGitライクなデータプリミティブが、コード、ブランチ、コミット、マージを通じてデータワークフローを公開する。
我々の中心的な観察は、分岐するレイクハウスは、出力マッチング問題からデータエージェントの評価を状態検証問題に変えることである:エージェント生成パイプラインコードは、具体的な検査可能なレイクハウスの変更を誘導する。
本稿では,タスク検証ペアを生成し,サンドボックス内の候補スキルを実行し,トレースレベル信号とレイクハウス状態のプログラムチェックを用いてトラジェクトリをスコアするデータ中心最適化パイプラインを提案する。
25タスクの予備評価では、最適化されたスキルによって精度が31.9%向上した。
これらの結果から,書き込みパスデータワークフローは,読み取り専用タスク以上のエージェントスキルを最適化するための有用な基盤となることが示唆された。
関連論文リスト
- DataMaster: Data-Centric Autonomous AI Research [51.95819363392062]
タスク条件付き自律データエンジニアリングについて検討し、エージェントがデータ側のみを最適化することで、固定学習アルゴリズムを改善する。
木構造検索,共有候補データ,累積メモリを統合したデータエージェントフレームワークであるDataMasterを提案する。
MLE-Bench LiteとPostTrainBenchの2種類のベンチマークでDataMasterを評価する。
論文 参考訳(メタデータ) (2026-05-11T17:46:24Z) - From Research Question to Scientific Workflow: Leveraging Agentic AI for Science Automation [0.0]
我々は,Hyperflow WMS上で動作する1000 Genomes集団遺伝ワークフロー上でのアーキテクチャの実装と評価を行った。
150クエリに関するアブレーション調査では、Skillsはフルマッチインテントの精度を44%から83%に引き上げ、スキル駆動の遅延ワークフロー生成はデータ転送を92%削減する。
論文 参考訳(メタデータ) (2026-04-23T17:52:52Z) - AgentOpt v0.1 Technical Report: Client-Side Optimization for LLM-Based Agent [18.58248061903799]
AgentOptは、クライアントサイドAI最適化のための最初のフレームワークに依存しないPythonパッケージである。
我々はまず,マルチステップエージェントパイプラインにおける高インパクト最適化レバーであるモデル選択について検討する。
指数関数的に増加する組み合わせ空間を効率的に探索するために、AgentOptは10の検索アルゴリズムを実装している。
論文 参考訳(メタデータ) (2026-04-07T17:13:47Z) - SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding [41.98672557723593]
SWEQA-Proは,多種多様な長期リポジトリと実行可能な環境から構築されたベンチマークである。
さらに,2段階のトレーニングレシピであるSupervised Fine-Tuning(SFT)とReinforcement Learning from AI Feedback(RLAIF)という,スケーラブルな合成データパイプラインを提案する。
SWE-QA-ProのGPT-4oを2.3ポイント超え、最先端モデルとのギャップを大幅に狭める。
論文 参考訳(メタデータ) (2026-03-17T05:12:48Z) - Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale [28.43462779191672]
AgentSkillOSは、スキル選択、オーケストレーション、エコシステムレベルの管理のための原則化されたフレームワークである。
AgentSkillOSには2つのステージがある。 (i) スキルを機能ツリーに整理する管理スキル。
(ii) DAGベースのパイプラインを通じて複数のスキルを検索し、オーケストレーションし、実行するタスクの解決。
論文 参考訳(メタデータ) (2026-03-02T18:46:47Z) - ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads? [0.8749675983608171]
実世界の推論タスクでその能力をテストするためのコーディングエージェントのベンチマークであるISO-Benchを紹介する。
統合プルリクエストから54のタスクをキュレートし、測定可能なパフォーマンスを改善しました。
論文 参考訳(メタデータ) (2026-02-23T08:37:53Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - How Useful is Self-Supervised Pretraining for Visual Tasks? [133.1984299177874]
我々は、総合的な合成データセットと下流タスクにまたがる様々な自己教師付きアルゴリズムを評価する。
我々の実験は、利用可能なラベルの数が増えるにつれて、セルフスーパービジョンの有用性がどう変化するかについての洞察を提供する。
論文 参考訳(メタデータ) (2020-03-31T16:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。