論文の概要: Measuring AI agent autonomy: Towards a scalable approach with code inspection
- arxiv url: http://arxiv.org/abs/2502.15212v1
- Date: Fri, 21 Feb 2025 04:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 17:07:16.352916
- Title: Measuring AI agent autonomy: Towards a scalable approach with code inspection
- Title(参考訳): AIエージェントの自律性の測定: コードインスペクションによるスケーラブルなアプローチを目指して
- Authors: Peter Cihon, Merlin Stein, Gagan Bansal, Sam Manning, Kevin Xu,
- Abstract要約: 我々は、特定のタスクを実行するためにAIエージェントを実行する必要をなくす、自律性に関するコードベースの評価を導入する。
このアプローチをAutoGenフレームワークで実証し、アプリケーションを選択します。
- 参考スコア(独自算出の注目度): 8.344207672507334
- License:
- Abstract: AI agents are AI systems that can achieve complex goals autonomously. Assessing the level of agent autonomy is crucial for understanding both their potential benefits and risks. Current assessments of autonomy often focus on specific risks and rely on run-time evaluations -- observations of agent actions during operation. We introduce a code-based assessment of autonomy that eliminates the need to run an AI agent to perform specific tasks, thereby reducing the costs and risks associated with run-time evaluations. Using this code-based framework, the orchestration code used to run an AI agent can be scored according to a taxonomy that assesses attributes of autonomy: impact and oversight. We demonstrate this approach with the AutoGen framework and select applications.
- Abstract(参考訳): AIエージェントは、複雑な目標を自律的に達成できるAIシステムである。
エージェントの自律性を評価することは、その潜在的な利益とリスクの両方を理解するために不可欠である。
現在の自律性の評価は、しばしば特定のリスクに焦点を当て、実行時の評価に依存します。
コードベースの自律性評価を導入し、特定のタスクを実行するためにAIエージェントを実行する必要をなくし、実行時の評価に関連するコストとリスクを低減する。
このコードベースのフレームワークを使用することで、AIエージェントの実行に使用されるオーケストレーションコードは、影響と監視という自律性の属性を評価する分類に従って取得することができる。
このアプローチをAutoGenフレームワークで実証し、アプリケーションを選択します。
関連論文リスト
- Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。
この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。
分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-04T19:00:06Z) - MISR: Measuring Instrumental Self-Reasoning in Frontier Models [7.414638276983446]
大規模言語モデル(LLM)エージェントの楽器的自己推論能力を評価する。
インストゥルメンタルな自己推論能力は、最も有能なフロンティアモデルにのみ現れる。
我々の評価は,将来のモデルにおける楽器の自己推論能力の増大を測定するのに有効である。
論文 参考訳(メタデータ) (2024-12-05T06:20:47Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Visibility into AI Agents [9.067567737098594]
AIエージェントに対する商業的、科学的、政府的、個人的活動の委譲の増加は、既存の社会的リスクを悪化させる可能性がある。
エージェント識別子,リアルタイム監視,アクティビティログという,AIエージェントの視認性を高めるための3つの尺度を評価した。
論文 参考訳(メタデータ) (2024-01-23T23:18:33Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Learning to Optimize Autonomy in Competence-Aware Systems [32.3596917475882]
体験を通して学習し、オンラインで更新する自律の内省モデルを提案する。
我々は、さまざまなレベルの自律性と利用可能な人間のフィードバックにおいて、自身の習熟度を明示的にモデル化する能力認識システム(CAS)を定義する。
我々はCASの収束特性を解析し、ロボット配送と自律運転領域の実験結果を提供する。
論文 参考訳(メタデータ) (2020-03-17T14:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。