論文の概要: Agentic DraCor and the Art of Docstring Engineering: Evaluating MCP-empowered LLM Usage of the DraCor API
- arxiv url: http://arxiv.org/abs/2508.13774v1
- Date: Tue, 19 Aug 2025 12:21:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.914159
- Title: Agentic DraCor and the Art of Docstring Engineering: Evaluating MCP-empowered LLM Usage of the DraCor API
- Title(参考訳): エージェントDraCorとDocstring Engineering:DraCor APIのMPPを用いたLCM利用の評価
- Authors: Peer Trilcke, Ingo Börner, Henny Sluyter-Gäthje, Daniil Skorinkin, Frank Fischer, Carsten Milling,
- Abstract要約: 本稿では,DraCor 用 Model Context Protocol サーバの実装と評価について報告する。
これにより、LLM(Large Language Models)がDraCor APIと自律的に対話できるようになる。
- 参考スコア(独自算出の注目度): 0.10555513406636088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper reports on the implementation and evaluation of a Model Context Protocol (MCP) server for DraCor, enabling Large Language Models (LLM) to autonomously interact with the DraCor API. We conducted experiments focusing on tool selection and application by the LLM, employing a qualitative approach that includes systematic observation of prompts to understand how LLMs behave when using MCP tools, evaluating "Tool Correctness", "Tool-Calling Efficiency", and "Tool-Use Reliability". Our findings highlight the importance of "Docstring Engineering", defined as reflexively crafting tool documentation to optimize LLM-tool interaction. Our experiments demonstrate both the promise of agentic AI for research in Computational Literary Studies and the essential infrastructure development needs for reliable Digital Humanities infrastructures.
- Abstract(参考訳): 本稿では,DraCor 用 Model Context Protocol (MCP) サーバの実装と評価について報告する。
我々は,LCMによるツール選択と応用に焦点を当てた実験を行い,MPPツールを用いた場合のLCMの動作を系統的に観察し,"Tool Correctness","Tool-Calling efficiency","Tool-Use Reliability"を評価した。
LLM-toolインタラクションを最適化するためのツールドキュメントとして定義されている「ドキュストリングエンジニアリング」の重要性を強調した。
我々の実験は、コンピュータ文学研究におけるエージェントAIの約束と、信頼性の高いデジタル人文科学基盤に必要なインフラ開発の必要性を実証するものである。
関連論文リスト
- MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [11.809732662992982]
本稿では,モデルコンテキストプロトコル (MCP) フレームワークにおける大規模言語モデル (LLM) の性能を評価するために設計された,最初の総合ベンチマークである MCP-RADAR を紹介する。
MCP-RADARは主観的な人的評価やバイナリ成功メトリクスに依存する従来のベンチマークとは異なり、複数のタスク領域にわたって客観的に定量化されている。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions [60.733557487886635]
本稿では,大規模言語モデルと外部ツールとの包括的ギャップを埋めることに焦点を当てる。
動的精錬ツールの文書化を目的とした新しいフレームワーク DRAFT を提案する。
この方法論は、3つの異なる学習フェーズからなる革新的な試行錯誤アプローチに基づいている。
論文 参考訳(メタデータ) (2024-10-10T17:58:44Z) - What Affects the Stability of Tool Learning? An Empirical Study on the Robustness of Tool Learning Frameworks [33.51887014808227]
本稿では,ツール学習フレームワークの性能に及ぼす内部要因と外部要因の影響について検討する。
今後の研究には、LCMが試行錯誤の増加から大きな恩恵を受けることができるという観察など、洞察に富んだ結論がいくつか見出される。
論文 参考訳(メタデータ) (2024-07-03T11:06:05Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、教師付き微調整(SFT)の一般的な方法論を含む、文献の体系的なレビューを行う。
また、既存の戦略の欠陥を指摘しながら、SFTの潜在的な落とし穴についても、それに対する批判とともに検討する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。