論文の概要: DDL2PropBank Agent: Benchmarking Multi-Agent Frameworks' Developer Experience Through a Novel Relational Schema Mapping Task
- arxiv url: http://arxiv.org/abs/2602.11198v1
- Date: Tue, 03 Feb 2026 01:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.426592
- Title: DDL2PropBank Agent: Benchmarking Multi-Agent Frameworks' Developer Experience Through a Novel Relational Schema Mapping Task
- Title(参考訳): DDL2PropBank Agent: 新たなリレーショナルスキーママッピングタスクによるマルチエージェントフレームワークの開発者エクスペリエンスのベンチマーク
- Authors: Shafiuddin Rehan Ahmed, Wei Wei,
- Abstract要約: DDL2PropBankは、関係データベーススキーマをPropBankロールセットにマッピングする新しいベンチマークタスクである。
10のフレームワークで同一のエージェントロジックを実装し、(i)静的解析によるコードの複雑さと(ii)AIアシスト性という2つの次元に沿って評価する。
Pydantic AIとAgnoは最小限の実装オーバーヘッドを必要とする。
- 参考スコア(独自算出の注目度): 9.51787137194505
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-agent frameworks promise to simplify LLM-driven software development, yet there is no principled way to evaluate their developer experience in a controlled setting. We introduce DDL2PropBank, a novel benchmark task that maps relational database schemas to PropBank rolesets, requiring autonomous retrieval of candidate frames and fine-grained linguistic reasoning over table names, columns, and relations. Using the Agent-as-a-Tool pattern, we implement identical agent logic across 10 frameworks and evaluate along two dimensions: (i) code complexity via static analysis, and (ii) AI-assistability -- the extent to which LLMs can autonomously generate correct, framework-specific code. Our results reveal a threefold complexity spectrum, with Pydantic AI and Agno requiring the least implementation overhead. For AI-assistability, structural alignment scores reliably proxy runtime success for frameworks with single canonical patterns, but overestimate correctness for multi-pattern frameworks. Agno emerges as the strongest overall performer, combining lowest complexity with highest structural alignment and 83% pass@1.
- Abstract(参考訳): マルチエージェントフレームワークは、LCM駆動ソフトウェア開発をシンプルにすることを約束しますが、コントロールされた環境で開発者エクスペリエンスを評価するための原則的な方法はありません。
DDL2PropBankは、関係データベーススキーマをPropBankのロールセットにマッピングする新しいベンチマークタスクであり、候補フレームの自律的検索とテーブル名、列、関係性に関する詳細な言語的推論を必要とする。
Agent-as-a-Toolパターンを使用して、10のフレームワークで同一のエージェントロジックを実装し、2次元で評価する。
(i)静的解析によるコードの複雑さ
(ii)AIアシスト -- LLMがフレームワーク固有の正しいコードを自律的に生成できる範囲。
Pydantic AIとAgnoは最小限の実装オーバーヘッドを必要とする。
AIアシストに対して、構造的アライメントスコアは、単一の標準パターンを持つフレームワークのランタイム成功を確実にプロキシするが、マルチパターンフレームワークの正確性を過大評価する。
Agnoは最も優れた総合的なパフォーマーとして登場し、最も低い複雑さと最も高い構造的アライメントと83%のpass@1を組み合わせている。
関連論文リスト
- A Lightweight Modular Framework for Constructing Autonomous Agents Driven by Large Language Models: Design, Implementation, and Applications in AgentForge [1.932555230783329]
LLM駆動の自律エージェントの構築を民主化するために設計された軽量でオープンソースのPythonフレームワーク。
AgentForgeは、(1)正式に定義された入出力契約できめ細かいタスク分解を可能にする構成可能なスキル抽象化、(2)クラウドベースのAPIとローカル推論エンジンのシームレスな切り替えをサポートする統一されたバックエンドインターフェース、(3)エージェントロジックと実装の詳細を分離する宣言型YAMLベースの構成システムである。
論文 参考訳(メタデータ) (2026-01-19T20:33:26Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - CodeAgents: A Token-Efficient Framework for Codified Multi-Agent Reasoning in LLMs [16.234259194402163]
マルチエージェント推論を符号化し、マルチエージェントシステムにおける構造化されたトークン効率の計画を可能にするプロンプトフレームワークであるCodeAgentsを紹介する。
その結果, 計画性能は一貫した改善がみられ, 基本となる自然言語よりも3~36ポイントの絶対的な向上が見られた。
論文 参考訳(メタデータ) (2025-07-04T02:20:19Z) - Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。
エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。
実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文 参考訳(メタデータ) (2025-06-03T04:19:47Z) - Text2Schema: Filling the Gap in Designing Database Table Structures based on Natural Language [22.15408079332362]
データベースのバックグラウンドを持たない人は、通常、ファイルシステムやExcelデータ管理のようなツールに依存します。
データベースシステムは強力な管理能力を持っているが、ユーザーからの高度な専門知識を必要とする。
論文 参考訳(メタデータ) (2025-03-31T09:39:19Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [66.43738008739555]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。