論文の概要: Diagnostics of cognitive failures in multi-agent expert systems using dynamic evaluation protocols and subsequent mutation of the processing context
- arxiv url: http://arxiv.org/abs/2509.15366v1
- Date: Thu, 18 Sep 2025 19:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.878787
- Title: Diagnostics of cognitive failures in multi-agent expert systems using dynamic evaluation protocols and subsequent mutation of the processing context
- Title(参考訳): 動的評価プロトコルとその後の処理コンテキストの変異を用いたマルチエージェントエキスパートシステムにおける認知障害の診断
- Authors: Andrejs Sorstkins, Josh Bailey, Dr Alistair Baron,
- Abstract要約: この研究は、専門家システムのための診断フレームワークを導入し、評価だけでなく、専門家行動のLSMエージェントへの転送を容易にする。
我々は,多エージェント採用支援システム上での枠組みを実証し,潜在的認知障害を明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid evolution of neural architectures - from multilayer perceptrons to large-scale Transformer-based models - has enabled language models (LLMs) to exhibit emergent agentic behaviours when equipped with memory, planning, and external tool use. However, their inherent stochasticity and multi-step decision processes render classical evaluation methods inadequate for diagnosing agentic performance. This work introduces a diagnostic framework for expert systems that not only evaluates but also facilitates the transfer of expert behaviour into LLM-powered agents. The framework integrates (i) curated golden datasets of expert annotations, (ii) silver datasets generated through controlled behavioural mutation, and (iii) an LLM-based Agent Judge that scores and prescribes targeted improvements. These prescriptions are embedded into a vectorized recommendation map, allowing expert interventions to propagate as reusable improvement trajectories across multiple system instances. We demonstrate the framework on a multi-agent recruiter-assistant system, showing that it uncovers latent cognitive failures - such as biased phrasing, extraction drift, and tool misrouting - while simultaneously steering agents toward expert-level reasoning and style. The results establish a foundation for standardized, reproducible expert behaviour transfer in stochastic, tool-augmented LLM agents, moving beyond static evaluation to active expert system refinement.
- Abstract(参考訳): 多層パーセプトロンから大規模トランスフォーマーベースモデルまで、ニューラルネットワークの急速な進化により、メモリ、プランニング、外部ツールの使用などを備えた場合、言語モデル(LLM)が創発的なエージェント動作を示すことが可能になった。
しかし、その固有確率性と多段階決定プロセスは、エージェント性能の診断に不十分な古典的評価方法を示す。
この研究は、専門家システムのための診断フレームワークを導入し、評価だけでなく、専門家行動のLSMエージェントへの転送を容易にする。
フレームワークが統合される
(i)専門家注記の黄金のデータセット。
二 制御行動突然変異により生ずる銀のデータセット、及び
三 目標改善を採点し、規定する LLM のエージェント・ジャッジ
これらの処方薬はベクトル化されたレコメンデーションマップに埋め込まれており、専門家の介入が複数のシステムインスタンスにまたがる再利用可能な改善軌跡として伝播することを可能にする。
我々は,多エージェント採用支援システムの枠組みを実証し,偏見付きフレーズや抽出ドリフト,ツールミスルーといった潜在的認知障害を明らかにするとともに,専門家レベルの推論とスタイルに向けてエージェントを同時に操ることを示した。
その結果, 静的評価から能動的エキスパートシステム改善へ移行し, 確率的, ツール強化されたLDMエージェントにおける標準化された再現可能な専門家行動伝達の基礎を確立した。
関連論文リスト
- MedSAM-Agent: Empowering Interactive Medical Image Segmentation with Multi-turn Agentic Reinforcement Learning [53.37068897861388]
MedSAM-Agentは、対話的なセグメンテーションを多段階の自律的な意思決定プロセスとして再構築するフレームワークである。
マルチターン・エンド・ツー・エンドの成果検証を統合した2段階のトレーニングパイプラインを開発した。
6つの医療モダリティと21のデータセットにわたる実験は、MedSAM-Agentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-03T09:47:49Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - Beyond Task Completion: An Assessment Framework for Evaluating Agentic AI Systems [0.0]
エージェントAIの最近の進歩は、スタンドアロンの大規模言語モデルから統合システムへと焦点を移している。
LLM、メモリ、ツール、環境を含む4つの評価柱を持つエンドツーエンドのエージェントアセスメントフレームワークを提案する。
我々はこのフレームワークを、従来のメトリクスによる振る舞いの偏りを示す、代表的なAutonomous CloudOpsユースケースで検証する。
論文 参考訳(メタデータ) (2025-12-14T18:17:40Z) - SelfAI: Building a Self-Training AI System with LLM Agents [79.10991818561907]
SelfAIは、高レベルの研究目的を標準化された実験構成に変換するためのUser Agentを組み合わせた、一般的なマルチエージェントプラットフォームである。
実験マネージャは、連続的なフィードバックのための構造化知識ベースを維持しながら、異種ハードウェアをまたいだ並列かつフォールトトレラントなトレーニングを編成する。
回帰、コンピュータビジョン、科学計算、医用画像、薬物発見ベンチマークなどを通じて、SelfAIは一貫して高いパフォーマンスを達成し、冗長な試行を減らしている。
論文 参考訳(メタデータ) (2025-11-29T09:18:39Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - LLM-based Agents for Automated Confounder Discovery and Subgroup Analysis in Causal Inference [1.1538255621565348]
本稿では,共同創設者の自動発見とサブグループ分析のための大規模言語モデルに基づくエージェントを提案する。
本フレームワークは,サブグループ識別と構造発見を体系的に行う。
以上の結果から,LSMをベースとしたエージェントは,スケーラブルで信頼性が高く,セマンティックに認識された因果推論へ有望な道をたどることが示唆された。
論文 参考訳(メタデータ) (2025-08-10T07:45:49Z) - InsightX Agent: An LMM-based Agentic Framework with Integrated Tools for Reliable X-ray NDT Analysis [16.686848727476644]
非破壊試験(NDT)は産業品質保証に不可欠である。
既存のディープラーニングベースのアプローチは、対話性、解釈可能性、そして批判的な自己評価能力に欠けることが多い。
本稿では,信頼性,解釈性,インタラクティブなNDT分析を実現するための新しいLMMベースのエージェントフレームワークであるInsightX Agentを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:23:22Z) - Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs [64.9693406713216]
RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。
実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。
本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-10-20T16:08:54Z) - RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms [55.77492625524141]
EvoAgentは、特殊エージェントをマルチエージェントシステムに自動的に拡張するジェネリックメソッドである。
EvoAgent は LLM エージェントのタスク解決能力を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-06-20T11:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。