論文の概要: Agentic Metacognition: Designing a "Self-Aware" Low-Code Agent for Failure Prediction and Human Handoff
- arxiv url: http://arxiv.org/abs/2509.19783v1
- Date: Wed, 24 Sep 2025 06:10:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.702876
- Title: Agentic Metacognition: Designing a "Self-Aware" Low-Code Agent for Failure Prediction and Human Handoff
- Title(参考訳): エージェントメタ認知:失敗予測とヒューマンハンドオフのための「自己認識」低コードエージェントの設計
- Authors: Jiexi Xu,
- Abstract要約: 自律エージェントの非決定論的性質は信頼性の課題を示す。
二次的な「メタ認知」層は一次LCNC剤を活発に監視する。
人間のイントロスペクションにインスパイアされたこのレイヤは、差し迫ったタスクの失敗を予測するように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The inherent non-deterministic nature of autonomous agents, particularly within low-code/no-code (LCNC) environments, presents significant reliability challenges. Agents can become trapped in unforeseen loops, generate inaccurate outputs, or encounter unrecoverable failures, leading to user frustration and a breakdown of trust. This report proposes a novel architectural pattern to address these issues: the integration of a secondary, "metacognitive" layer that actively monitors the primary LCNC agent. Inspired by human introspection, this layer is designed to predict impending task failures based on a defined set of triggers, such as excessive latency or repetitive actions. Upon predicting a failure, the metacognitive agent proactively initiates a human handoff, providing the user with a clear summary of the agent's "thought process" and a detailed explanation of why it could not proceed. An empirical analysis of a prototype system demonstrates that this approach significantly increases the overall task success rate. However, this performance gain comes with a notable increase in computational overhead. The findings reframe human handoffs not as an admission of defeat but as a core design feature that enhances system resilience, improves user experience, and builds trust by providing transparency into the agent's internal state. The report discusses the practical and ethical implications of this approach and identifies key directions for future research.
- Abstract(参考訳): 自律エージェントの固有の非決定論的性質、特に低コード/ノーコード(LCNC)環境では、重大な信頼性の課題が示される。
エージェントは予期せぬループに閉じ込められ、不正確なアウトプットを生成したり、発見不可能な失敗に遭遇したりすることで、ユーザのフラストレーションと信頼の崩壊につながる。
本報告では、LCNCエージェントをアクティブに監視する二次的な「メタ認知」層の統合という、これらの問題に対処する新しいアーキテクチャパターンを提案する。
人間のイントロスペクションにインスパイアされたこのレイヤは、過度なレイテンシや反復的なアクションなど、定義されたトリガーセットに基づいて、差し迫ったタスク障害を予測するように設計されている。
失敗を予測すると、メタ認知エージェントは積極的にヒューマンハンドオフを開始し、エージェントの「思考プロセス」の明確な概要と、それが進めない理由の詳細な説明を提供する。
プロトタイプシステムの実証分析により、このアプローチが全体のタスク成功率を著しく向上させることが示された。
しかし、この性能向上は計算オーバーヘッドの顕著な増加を伴う。
この発見は,システムレジリエンスを向上し,ユーザエクスペリエンスを改善し,エージェントの内部状態に透明性を提供することで信頼を構築する,中核的な設計機能として,人間のハンドオフを再定義するものだ。
本報告では, このアプローチの実践的, 倫理的意味を論じ, 今後の研究の方向性を明らかにする。
関連論文リスト
- When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。
意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。
本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:20:11Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - From Biased Chatbots to Biased Agents: Examining Role Assignment Effects on LLM Agent Robustness [5.572574491501413]
大規模言語モデル(LLM)は、テキスト生成を超えた現実的な影響で行動可能な自律エージェントとして、ますます多くデプロイされている。
テキスト生成におけるペルソナによるバイアスは十分に文書化されているが、エージェントタスクのパフォーマンスへの影響は未解明のままである。
人口動態に基づくペルソナ割り当ては, LLMエージェントの行動を変化させ, 様々な領域で性能を低下させることができることを示す最初のシステマティックケーススタディを示す。
論文 参考訳(メタデータ) (2026-01-21T02:43:07Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - Simulating and Understanding Deceptive Behaviors in Long-Horizon Interactions [18.182800471968132]
大規模言語モデルにおける偽造の探索と評価のための最初のシミュレーションフレームワークを紹介する。
11のフロンティアモデルで実験を行い、クローズドシステムとオープンソースシステムの両方にまたがっています。
詐欺はモデルに依存しており、イベントプレッシャーの増加とともに増加し、常に監督的信頼を損なう。
論文 参考訳(メタデータ) (2025-10-05T02:18:23Z) - AgentCompass: Towards Reliable Evaluation of Agentic Workflows in Production [4.031479494871582]
本稿では,エージェントパイプラインのデプロイ後監視と推論に特化して設計された,最初の評価フレームワークであるAgentを紹介する。
Agentは、主要なメトリクスに関する最先端の結果を達成すると同時に、人間のアノテーションで見逃された重要な問題を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T05:59:04Z) - An Empirical Study on Failures in Automated Issue Solving [12.571536148821144]
我々は,SWE-Bench-Verifiedの自動問題解決タスクにおいて,パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
ハイレベルなパフォーマンス指標から根本原因分析に移行するために,150件の障害事例の体系的手動分析を行った。
その結果、2つのアーキテクチャパラダイムの間には明確な失敗の指紋が明らかとなり、ほとんどのエージェント的失敗は、欠陥のある推論と認知的デッドロックに起因する。
論文 参考訳(メタデータ) (2025-09-17T13:07:52Z) - Profile-Aware Maneuvering: A Dynamic Multi-Agent System for Robust GAIA Problem Solving by AWorld [20.01452161733642]
我々はAWorldフレームワークで動的マルチエージェントシステム(MAS)を提案する。
実行エージェントは、オンデマンドの動的操作を提供するガードエージェントによって監督される。
本システムは,GAIAの高名なリーダボード上でのオープンソースプロジェクトの中で,第1位を達成している。
論文 参考訳(メタデータ) (2025-08-13T15:46:25Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - How Far Are LLMs from Believable AI? A Benchmark for Evaluating the Believability of Human Behavior Simulation [46.42384207122049]
我々は,人間の振る舞いをシミュレートする際の大規模言語モデル (LLM) の信頼性を評価するために SimulateBench を設計する。
SimulateBenchに基づいて、文字をシミュレートする際、広く使われている10個のLLMの性能を評価する。
論文 参考訳(メタデータ) (2023-12-28T16:51:11Z) - Uncertainty Quantification for Deep Neural Networks: An Empirical
Comparison and Usage Guidelines [4.987581730476023]
ディープニューラルネットワーク(DNN)は、複雑なデータを処理する必要がある大規模ソフトウェアシステムのコンポーネントとして、ますます利用されている。
不確実性推定によりスーパーバイザを実装するディープラーニングベースシステム(DLS)。
論文 参考訳(メタデータ) (2022-12-14T09:12:30Z) - An Uncertainty-based Human-in-the-loop System for Industrial Tool Wear
Analysis [68.8204255655161]
人間のループシステムにおけるモンテカルロのドロップアウトに基づく不確実性対策により,システムの透明性と性能が向上することを示す。
シミュレーション研究により、不確実性に基づく「ループ内人間システム」は、様々なレベルの人間の関与に対する性能を高めることが示されている。
論文 参考訳(メタデータ) (2020-07-14T15:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。