論文の概要: Agent Mentor: Framing Agent Knowledge through Semantic Trajectory Analysis
- arxiv url: http://arxiv.org/abs/2604.10513v1
- Date: Sun, 12 Apr 2026 08:02:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.067096
- Title: Agent Mentor: Framing Agent Knowledge through Semantic Trajectory Analysis
- Title(参考訳): エージェントメンター:意味的軌道分析によるエージェント知識の分別
- Authors: Roi Ben-Gigi, Yuval David, Fabiana Fournier, Lior Limonad, Dany Moshkovich, Hadar Mulian, Segev Shlomov,
- Abstract要約: 我々は、Agent Mentorオープンソースライブラリの一部として実装された分析パイプラインを紹介する。
システムの監視と漸進的な適応によって、他のエージェントの振る舞いを定義する。
パイプラインは、エージェントの知識に修正命令を体系的に注入することで、パフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 4.365760422569902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agent development relies heavily on natural language prompting to define agents' tasks, knowledge, and goals. These prompts are interpreted by Large Language Models (LLMs), which govern agent behavior. Consequently, agentic performance is susceptible to variability arising from imprecise or ambiguous prompt formulations. Identifying and correcting such issues requires examining not only the agent's code, but also the internal system prompts generated throughout its execution lifecycle, as reflected in execution logs. In this work, we introduce an analytics pipeline implemented as part of the Agent Mentor open-source library that monitors and incrementally adapts the system prompts defining another agent's behavior. The pipeline improves performance by systematically injecting corrective instructions into the agent's knowledge. We describe its underlying mechanism, with particular emphasis on identifying semantic features associated with undesired behaviors and using them to derive corrective statements. We evaluate the proposed pipeline across three exemplar agent configurations and benchmark tasks using repeated execution runs to assess effectiveness. These experiments provide an initial exploration of automating such a mentoring pipeline within future agentic governance frameworks. Overall, the approach demonstrates consistent and measurable accuracy improvements across diverse configurations, particularly in settings dominated by specification ambiguity. For reproducibility, we released our code as open source under the Agent Mentor library.
- Abstract(参考訳): AIエージェント開発は、エージェントのタスク、知識、目標を定義することを促す自然言語に大きく依存している。
これらのプロンプトは、エージェントの振る舞いを管理するLarge Language Models (LLM)によって解釈される。
これにより、不正確または曖昧な急進的な定式化に起因する変動に薬品性能が影響される。
このような問題の特定と修正には、エージェントのコードだけでなく、実行ログに反映された実行ライフサイクルを通じて生成された内部システムも検査する必要がある。
本研究では,Agent Mentorオープンソースライブラリの一部として実装された分析パイプラインを紹介する。
パイプラインは、エージェントの知識に修正命令を体系的に注入することで、パフォーマンスを向上させる。
本稿では、その基盤となるメカニズムについて述べる。特に、望ましくない行動に関連する意味的特徴を特定し、それらを用いて訂正文を導出することに焦点を当てる。
提案手法は,3つのエージェント構成とベンチマークタスクにまたがるパイプラインを,繰り返し実行実行を用いて評価し,有効性を評価する。
これらの実験は、将来のエージェントガバナンスフレームワークにおけるメンタリングパイプラインの自動化に関する最初の調査を提供する。
全体として、このアプローチは、さまざまな構成、特に仕様の曖昧さに支配される設定において、一貫性と測定可能な精度の向上を示す。
再現性のため、Agent Mentorライブラリの下でオープンソースとしてコードを公開しました。
関連論文リスト
- Willful Disobedience: Automatically Detecting Failures in Agentic Traces [2.2365938060262356]
AgentPexはエージェントトレースを体系的に評価するAIツールである。
エージェントプロンプトとシステム命令から振る舞いルールを抽出し、これらの仕様を使用してコンプライアンスのトレースを自動的に評価する。
我々は、通信、小売、航空会社の顧客サービスにおいて、AgentPexを2ベンチから424のトレースで評価した。
論文 参考訳(メタデータ) (2026-03-25T00:33:39Z) - When Only the Final Text Survives: Implicit Execution Tracing for Multi-Agent Attribution [10.973058523304042]
IET(Implicit Execution Tracing)は、メタデータに依存しないフレームワークで、生成したテキストから直接トークンレベルの属性を作成できる。
生成中、エージェント固有のキー付き信号がトークン分布に埋め込まれ、秘密鍵でのみ検出可能な自己記述実行トレースに変換される。
検出時にエージェントハンドオーバポイントを特定し、インタラクショングラフを再構築する。
論文 参考訳(メタデータ) (2026-03-18T07:34:51Z) - VeRO: An Evaluation Harness for Agents to Optimize Agents [5.227525836910522]
我々は、バージョン管理されたエージェントスナップショット、予算管理された評価、構造化された実行トレースを備えた再現可能な評価手法であるVERO(Versioning, Rewards, Observations)を紹介する。
本研究では,ターゲットエージェントの比較実験を行い,どの修正がターゲットエージェントの性能を確実に向上させるか分析する。
論文 参考訳(メタデータ) (2026-02-25T23:40:22Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Agentic AI Process Observability: Discovering Behavioral Variability [2.273531916003657]
大規模言語モデル(LLM)を利用するAIエージェントは、現代のソフトウェアシステムの中核的な構成要素になりつつある。
フレームワークは自然言語のプロンプトを使ってエージェントの設定を定義することができる。
このような設定では、エージェントの振る舞いは任意の入力に対して非決定論的である。
論文 参考訳(メタデータ) (2025-05-26T15:26:07Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。