論文の概要: Watson: A Cognitive Observability Framework for the Reasoning of Foundation Model-Powered Agents
- arxiv url: http://arxiv.org/abs/2411.03455v1
- Date: Tue, 05 Nov 2024 19:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:52.073934
- Title: Watson: A Cognitive Observability Framework for the Reasoning of Foundation Model-Powered Agents
- Title(参考訳): Watson: 基礎モデル駆動エージェントの推論のための認知的可観測性フレームワーク
- Authors: Benjamin Rombaut, Sogol Masoumzadeh, Kirill Vasilevski, Dayi Lin, Ahmed E. Hassan,
- Abstract要約: ファウンデーションモデル(FM)は、FMベースのエージェントソフトウェア(エージェントウェア)のような複雑なソフトウェアシステムにおいて、ますます顕著な役割を担っている。
従来のソフトウェアとは異なり、エージェントは不透明なデータと暗黙の推論を使用して自律的に操作する。
このような革新的なシステムに現れた新しいタイプの要求可観測性として,認知可観測性を提案する。
- 参考スコア(独自算出の注目度): 7.392058124132526
- License:
- Abstract: As foundation models (FMs) play an increasingly prominent role in complex software systems, such as FM-powered agentic software (i.e., Agentware), they introduce significant challenges for developers regarding observability. Unlike traditional software, agents operate autonomously, using extensive data and opaque implicit reasoning, making it difficult to observe and understand their behavior during runtime, especially when they take unexpected actions or encounter errors. In this paper, we highlight the limitations of traditional operational observability in the context of FM-powered software, and introduce cognitive observability as a new type of required observability that has emerged for such innovative systems. We then propose a novel framework that provides cognitive observability into the implicit reasoning processes of agents (a.k.a. reasoning observability), and demonstrate the effectiveness of our framework in boosting the debuggability of Agentware and, in turn, the abilities of an Agentware through a case study on AutoCodeRover, a cuttingedge Agentware for autonomous program improvement.
- Abstract(参考訳): ファンデーションモデル(FM)は、FMベースのエージェントソフトウェア(エージェントウェア)のような複雑なソフトウェアシステムにおいて、ますます顕著な役割を担っている。
従来のソフトウェアとは異なり、エージェントは広範囲なデータと不透明な暗黙の推論を使用して自律的に操作する。
本稿では,FM を利用したソフトウェアにおける従来の運用可観測性の限界を強調し,このような革新的なシステムに現れる新しいタイプの要求可観測性として認知可観測性を導入する。
次に、エージェントの暗黙的推論プロセス(例えば、可観測性推論)に認知的可観測性を提供する新しいフレームワークを提案し、エージェントウェアのデバッグ可能性を高める上で、我々のフレームワークの有効性を実証し、その結果、自律的プログラム改善のための最先端のエージェントウェアであるAutoCodeRoverのケーススタディを通じてエージェントウェアの能力を示す。
関連論文リスト
- WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments [0.0]
この論文では、自律エージェントのためのオントロジー強化意思決定モデル(OntoDeM)を紹介している。
OntoDeMはエージェントのドメイン知識を充実させ、予期せぬイベントを解釈し、目標を生成または適応させ、より良い意思決定を可能にする。
OntoDeMは従来の学習アルゴリズムや高度な学習アルゴリズムと比較して、動的で部分的に観察可能な環境におけるエージェントの観察と意思決定を改善する上で優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-27T22:52:23Z) - Foundation Model Sherpas: Guiding Foundation Models through Knowledge
and Reasoning [23.763256908202496]
ファンデーションモデル(FM)は、さまざまなタスクにおいて顕著なパフォーマンスを示すことによって、AIの分野に革命をもたらした。
FMは、多くの現実世界システムで広く採用されるのを防ぐために、多くの制限を課している。
エージェントがFMと対話できる様々なモードをカプセル化する概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:00:35Z) - Mathematical Algorithm Design for Deep Learning under Societal and
Judicial Constraints: The Algorithmic Transparency Requirement [65.26723285209853]
計算モデルにおける透過的な実装が実現可能かどうかを分析するための枠組みを導出する。
以上の結果から,Blum-Shub-Smale Machinesは,逆問題に対する信頼性の高い解法を確立できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-01-18T15:32:38Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Multi-Agent Verification and Control with Probabilistic Model Checking [4.56877715768796]
確率的モデルチェック(probabilistic model check)は、ソフトウェアやハードウェアシステムに関する公式な自動推論手法である。
論理学、オートマトン、グラフ理論から最適化、数値法、制御に至るまで、様々な分野のアイデアと技術に基づいて構築される。
近年ではゲーム理論のアイデアを統合するために確率的モデル検査も拡張されている。
論文 参考訳(メタデータ) (2023-08-05T09:31:32Z) - ComplAI: Theory of A Unified Framework for Multi-factor Assessment of
Black-Box Supervised Machine Learning Models [6.279863832853343]
ComplAIは、説明可能性、堅牢性、パフォーマンス、公正性、モデル行動を有効にし、観察し、分析し、定量化するユニークなフレームワークである。
教師付き機械学習モデルの評価は、正しい予測を行う能力だけでなく、全体的な責任の観点から行う。
論文 参考訳(メタデータ) (2022-12-30T08:48:19Z) - Pessimism meets VCG: Learning Dynamic Mechanism Design via Offline
Reinforcement Learning [114.36124979578896]
オフライン強化学習アルゴリズムを用いて動的メカニズムを設計する。
我々のアルゴリズムは悲観主義の原理に基づいており、オフラインデータセットのカバレッジについて軽度な仮定しか必要としない。
論文 参考訳(メタデータ) (2022-05-05T05:44:26Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Multi-Agent Reinforcement Learning with Temporal Logic Specifications [65.79056365594654]
本研究では,時間論理仕様を満たすための学習課題を,未知の環境下でエージェントのグループで検討する。
我々は、時間論理仕様のための最初のマルチエージェント強化学習手法を開発した。
主アルゴリズムの正確性と収束性を保証する。
論文 参考訳(メタデータ) (2021-02-01T01:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。