Fugu-MT 論文翻訳(概要): Measuring AI agent autonomy: Towards a scalable approach with code inspection

論文の概要: Measuring AI agent autonomy: Towards a scalable approach with code inspection

arxiv url: http://arxiv.org/abs/2502.15212v1
Date: Fri, 21 Feb 2025 04:58:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-24 21:37:39.073409
Title: Measuring AI agent autonomy: Towards a scalable approach with code inspection
Title（参考訳）: AIエージェントの自律性の測定: コードインスペクションによるスケーラブルなアプローチを目指して
Authors: Peter Cihon, Merlin Stein, Gagan Bansal, Sam Manning, Kevin Xu,
Abstract要約: 我々は、特定のタスクを実行するためにAIエージェントを実行する必要をなくす、自律性に関するコードベースの評価を導入する。このアプローチをAutoGenフレームワークで実証し、アプリケーションを選択します。
参考スコア（独自算出の注目度）: 8.344207672507334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI agents are AI systems that can achieve complex goals autonomously. Assessing the level of agent autonomy is crucial for understanding both their potential benefits and risks. Current assessments of autonomy often focus on specific risks and rely on run-time evaluations -- observations of agent actions during operation. We introduce a code-based assessment of autonomy that eliminates the need to run an AI agent to perform specific tasks, thereby reducing the costs and risks associated with run-time evaluations. Using this code-based framework, the orchestration code used to run an AI agent can be scored according to a taxonomy that assesses attributes of autonomy: impact and oversight. We demonstrate this approach with the AutoGen framework and select applications.
Abstract（参考訳）: AIエージェントは、複雑な目標を自律的に達成できるAIシステムである。エージェントの自律性を評価することは、その潜在的な利益とリスクの両方を理解するために不可欠である。現在の自律性の評価は、しばしば特定のリスクに焦点を当て、実行時の評価に依存します。コードベースの自律性評価を導入し、特定のタスクを実行するためにAIエージェントを実行する必要をなくし、実行時の評価に関連するコストとリスクを低減する。このコードベースのフレームワークを使用することで、AIエージェントの実行に使用されるオーケストレーションコードは、影響と監視という自律性の属性を評価する分類に従って取得することができる。このアプローチをAutoGenフレームワークで実証し、アプリケーションを選択します。

関連論文リスト

Advancing Responsible Innovation in Agentic AI: A study of Ethical Frameworks for Household Automation [1.6766200616088744]
この記事ではエージェントAIとそのアプリケーションを分析し、リアクティブから積極的な自律性、プライバシ、公正性、ユーザコントロールへの移行に注目します。監視・偏見・プライバシーリスクのリスクが高い高齢者、子ども、神経分岐などの脆弱性のあるユーザーグループについて検討した。設計命令は、調整された説明可能性、きめ細かい同意機構、堅牢なオーバーライド制御など、強調される。
論文参考訳（メタデータ） (2025-07-21T06:10:02Z)
Taming Uncertainty via Automation: Observing, Analyzing, and Optimizing Agentic AI Systems [1.9751175705897066]
大規模言語モデル (LLMs) はエージェントシステムにますます展開され、対話型のLLMエージェントは複雑で、メモリ、ツール、動的プランニングを用いて適応的に実行される。従来のソフトウェアオブザーバビリティと運用プラクティスは、これらの課題に対処するには不十分です。本稿ではエージェントAIシステムの動作を観察し、分析し、最適化し、自動化するための総合的なフレームワークであるAgentOpsを紹介する。
論文参考訳（メタデータ） (2025-07-15T12:54:43Z)
Levels of Autonomy for AI Agents [9.324309359500198]
エージェントの自律性のレベルは、その能力と運用環境とは別に、意図的な設計上の決定として扱うことができると論じる。エージェントと対話する際の役割を特徴とし,エージェントの自律性を高める5つのレベルを定義した。シングルエージェントおよびマルチエージェントシステムにおけるエージェントの動作を管理するために、AI自律性証明書に対する私たちのフレームワークの潜在的な応用を強調します。
論文参考訳（メタデータ） (2025-06-14T12:14:36Z)
Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism [48.41735416075536]
インタラクティブ・イミテーション・ラーニング (Interactive Imitation Learning, IIL) は、エージェントが人間の介入を通じて望ましい行動を取得することを可能にする。本稿では,人間の実演を依頼する適応的基準を学習するロボットゲート型IILアルゴリズムであるAdaptive Intervention Mechanism (AIM)を提案する。
論文参考訳（メタデータ） (2025-06-10T18:43:26Z)
TRiSM for Agentic AI: A Review of Trust, Risk, and Security Management in LLM-based Agentic Multi-Agent Systems [2.462408812529728]
本総説では, LLMに基づくエージェントマルチエージェントシステム (AMAS) の文脈における, textbfTrust, Risk, and Security Management (TRiSM) の構造解析について述べる。まず、エージェントAIの概念的基礎を調べ、従来のAIエージェントとアーキテクチャ的区別を強調します。次に、説明可能性、モデルOps、セキュリティ、プライバシ、ガバナンスの4つの主要な柱を中心に構成された、エージェントAIのためのAI TRiSMフレームワークを適応して拡張します。
論文参考訳（メタデータ） (2025-06-04T16:26:11Z)
Threat Modeling for AI: The Case for an Asset-Centric Approach [0.23408308015481666]
AIシステムは、自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用することが可能になった。 AIシステムが自律的にコードを実行し、外部システムと対話し、人間の監視なしに運用できるようになったことで、従来のセキュリティアプローチは不足する。本稿では、脅威モデリングAIシステムのための資産中心の方法論を紹介する。
論文参考訳（メタデータ） (2025-05-08T18:57:08Z)
Agentic Knowledgeable Self-awareness [79.25908923383776]
KnowSelfはデータ中心のアプローチで、人間のような知識のある自己認識を持つエージェントを応用する。我々の実験により、KnowSelfは、外部知識を最小限に使用して、様々なタスクやモデルにおいて、様々な強力なベースラインを達成できることが実証された。
論文参考訳（メタデータ） (2025-04-04T16:03:38Z)
AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、既存のAIエージェントと将来のAIエージェントが、潜在的にプライベートな情報の処理をどの程度制限できるかを評価するために、AgentDAMと呼ばれるベンチマークを開発する。我々のベンチマークは、現実的なWebインタラクションシナリオをシミュレートし、既存のWebナビゲーションエージェントすべてに適用できる。
論文参考訳（メタデータ） (2025-03-12T19:30:31Z)
Fully Autonomous AI Agents Should Not be Developed [58.88624302082713]
本稿では,完全自律型AIエージェントを開発すべきではないと主張している。この立場を支持するために、我々は、従来の科学文献と現在の製品マーケティングから、異なるAIエージェントレベルを規定するために構築する。分析の結果,システムの自律性によって人へのリスクが増大することが明らかとなった。
論文参考訳（メタデータ） (2025-02-04T19:00:06Z)
Agentic AI: Autonomy, Accountability, and the Algorithmic Society [0.2209921757303168]
エージェント人工知能(AI)は、自律的に長期的な目標を追求し、意思決定を行い、複雑なマルチターンを実行することができる。この指導的役割から積極的執行課題への移行は、法的、経済的、創造的な枠組みを確立した。我々は,創造性と知的財産,法的・倫理的考察,競争効果の3つの分野における課題を探求する。
論文参考訳（メタデータ） (2025-02-01T03:14:59Z)
MISR: Measuring Instrumental Self-Reasoning in Frontier Models [7.414638276983446]
大規模言語モデル(LLM)エージェントの楽器的自己推論能力を評価する。インストゥルメンタルな自己推論能力は、最も有能なフロンティアモデルにのみ現れる。我々の評価は,将来のモデルにおける楽器の自己推論能力の増大を測定するのに有効である。
論文参考訳（メタデータ） (2024-12-05T06:20:47Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。 55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文参考訳（メタデータ） (2024-10-14T17:57:02Z)
"A Good Bot Always Knows Its Limitations": Assessing Autonomous System Decision-making Competencies through Factorized Machine Self-confidence [5.167803438665586]
本稿では,アルゴリズムによる意思決定における能力向上に寄与するいくつかの要因について,一意に考察したFactized Machine Self-confidence(FaMSeC)フレームワークを提案する。 FaMSeCでは、自己自信指標はマルコフ決定過程の解法に埋め込まれた「確率問題解決統計」によって導出される。マルコフ決定プロセスエージェントの詳細な説明と例を含み、さまざまなタスクのコンテキストにおいて、結果評価と問題解決の質要因がどのように見つかるかを示す。
論文参考訳（メタデータ） (2024-07-29T01:22:04Z)
Training Compute Thresholds: Features and Functions in AI Regulation [0.7234862895932991]
米国とEUのレギュレータは、トレーニング計算に基づくしきい値を使用して、大規模社会被害のリスクを引き起こす可能性のあるGPAIモデルを特定している。現在、トレーニング計算は、規制の監視とさらなる精査に値するGPAIモデルを特定するのに最も適した指標である、と我々は主張する。 GPAI技術と市場構造が進化するにつれて、規制当局は計算しきい値を更新し、他のメトリクスを規制審査プロセスに補完する必要がある。
論文参考訳（メタデータ） (2024-05-17T14:10:24Z)
Visibility into AI Agents [9.067567737098594]
AIエージェントに対する商業的、科学的、政府的、個人的活動の委譲の増加は、既存の社会的リスクを悪化させる可能性がある。エージェント識別子,リアルタイム監視,アクティビティログという,AIエージェントの視認性を高めるための3つの尺度を評価した。
論文参考訳（メタデータ） (2024-01-23T23:18:33Z)
Interactive Autonomous Navigation with Internal State Inference and Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-11-27T18:57:42Z)
Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文参考訳（メタデータ） (2022-09-07T10:09:12Z)
Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文参考訳（メタデータ） (2022-03-24T17:48:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。