論文の概要: Measuring AI agent autonomy: Towards a scalable approach with code inspection
- arxiv url: http://arxiv.org/abs/2502.15212v1
- Date: Fri, 21 Feb 2025 04:58:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 21:37:39.073409
- Title: Measuring AI agent autonomy: Towards a scalable approach with code inspection
- Title(参考訳): AIエージェントの自律性の測定: コードインスペクションによるスケーラブルなアプローチを目指して
- Authors: Peter Cihon, Merlin Stein, Gagan Bansal, Sam Manning, Kevin Xu,
- Abstract要約: 我々は、特定のタスクを実行するためにAIエージェントを実行する必要をなくす、自律性に関するコードベースの評価を導入する。
このアプローチをAutoGenフレームワークで実証し、アプリケーションを選択します。
- 参考スコア(独自算出の注目度): 8.344207672507334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are AI systems that can achieve complex goals autonomously. Assessing the level of agent autonomy is crucial for understanding both their potential benefits and risks. Current assessments of autonomy often focus on specific risks and rely on run-time evaluations -- observations of agent actions during operation. We introduce a code-based assessment of autonomy that eliminates the need to run an AI agent to perform specific tasks, thereby reducing the costs and risks associated with run-time evaluations. Using this code-based framework, the orchestration code used to run an AI agent can be scored according to a taxonomy that assesses attributes of autonomy: impact and oversight. We demonstrate this approach with the AutoGen framework and select applications.
- Abstract(参考訳): AIエージェントは、複雑な目標を自律的に達成できるAIシステムである。
エージェントの自律性を評価することは、その潜在的な利益とリスクの両方を理解するために不可欠である。
現在の自律性の評価は、しばしば特定のリスクに焦点を当て、実行時の評価に依存します。
コードベースの自律性評価を導入し、特定のタスクを実行するためにAIエージェントを実行する必要をなくし、実行時の評価に関連するコストとリスクを低減する。
このコードベースのフレームワークを使用することで、AIエージェントの実行に使用されるオーケストレーションコードは、影響と監視という自律性の属性を評価する分類に従って取得することができる。
このアプローチをAutoGenフレームワークで実証し、アプリケーションを選択します。
関連論文リスト
- Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。
我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文 参考訳(メタデータ) (2025-04-04T16:03:38Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、既存のAIエージェントと将来のAIエージェントが、潜在的にプライベートな情報の処理をどの程度制限できるかを評価するために、AgentDAMと呼ばれるベンチマークを開発する。
我々のベンチマークは、現実的なWebインタラクションシナリオをシミュレートし、既存のWebナビゲーションエージェントすべてに適用できる。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。
この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。
分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-04T19:00:06Z) - Agentic AI: Autonomy, Accountability, and the Algorithmic Society [0.2209921757303168]
エージェント人工知能(AI)は、自律的に長期的な目標を追求し、意思決定を行い、複雑なマルチターンを実行することができる。
この指導的役割から積極的執行課題への移行は、法的、経済的、創造的な枠組みを確立した。
我々は,創造性と知的財産,法的・倫理的考察,競争効果の3つの分野における課題を探求する。
論文 参考訳(メタデータ) (2025-02-01T03:14:59Z) - MISR: Measuring Instrumental Self-Reasoning in Frontier Models [7.414638276983446]
大規模言語モデル(LLM)エージェントの楽器的自己推論能力を評価する。
インストゥルメンタルな自己推論能力は、最も有能なフロンティアモデルにのみ現れる。
我々の評価は,将来のモデルにおける楽器の自己推論能力の増大を測定するのに有効である。
論文 参考訳(メタデータ) (2024-12-05T06:20:47Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - "A Good Bot Always Knows Its Limitations": Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence [5.167803438665586]
本稿では,アルゴリズムによる意思決定における能力向上に寄与するいくつかの要因について,一意に考察したFactized Machine Self-confidence(FaMSeC)フレームワークを提案する。
FaMSeCでは、自己自信指標はマルコフ決定過程の解法に埋め込まれた「確率問題解決統計」によって導出される。
マルコフ決定プロセスエージェントの詳細な説明と例を含み、さまざまなタスクのコンテキストにおいて、結果評価と問題解決の質要因がどのように見つかるかを示す。
論文 参考訳(メタデータ) (2024-07-29T01:22:04Z) - Training Compute Thresholds: Features and Functions in AI Regulation [0.7234862895932991]
米国とEUのレギュレータは、トレーニング計算に基づくしきい値を使用して、大規模社会被害のリスクを引き起こす可能性のあるGPAIモデルを特定している。
現在、トレーニング計算は、規制の監視とさらなる精査に値するGPAIモデルを特定するのに最も適した指標である、と我々は主張する。
GPAI技術と市場構造が進化するにつれて、規制当局は計算しきい値を更新し、他のメトリクスを規制審査プロセスに補完する必要がある。
論文 参考訳(メタデータ) (2024-05-17T14:10:24Z) - Visibility into AI Agents [9.067567737098594]
AIエージェントに対する商業的、科学的、政府的、個人的活動の委譲の増加は、既存の社会的リスクを悪化させる可能性がある。
エージェント識別子,リアルタイム監視,アクティビティログという,AIエージェントの視認性を高めるための3つの尺度を評価した。
論文 参考訳(メタデータ) (2024-01-23T23:18:33Z) - Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。