Fugu-MT 論文翻訳(概要): Analyzing Probabilistic Methods for Evaluating Agent Capabilities

論文の概要: Analyzing Probabilistic Methods for Evaluating Agent Capabilities

arxiv url: http://arxiv.org/abs/2409.16125v3
Date: Fri, 11 Oct 2024 21:10:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-06 17:52:35.680306
Title: Analyzing Probabilistic Methods for Evaluating Agent Capabilities
Title（参考訳）: エージェント能力評価のための確率的手法の解析
Authors: Axel Højmark, Govind Pimpale, Arjun Panickssery, Marius Hobbhahn, Jérémy Scheurer,
Abstract要約: 本稿では,AIエージェントが与えられたタスクを完了した確率をよりよく推定することを目的とした2つの手法を提案する。マイルストーン法はタスクをサブタスクに分解し、全体の成功率推定を改善する。専門家のベスト・オブ・N法は、モデルの独立したパフォーマンスのプロキシとして人間のガイダンスを活用する。
参考スコア（独自算出の注目度）: 0.6990493129893112
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: To mitigate risks from AI systems, we need to assess their capabilities accurately. This is especially difficult in cases where capabilities are only rarely displayed. Phuong et al. propose two methods that aim to obtain better estimates of the probability of an AI agent successfully completing a given task. The milestone method decomposes tasks into subtasks, aiming to improve overall success rate estimation, while the expert best-of-N method leverages human guidance as a proxy for the model's independent performance. Our analysis of these methods as Monte Carlo estimators reveals that while both effectively reduce variance compared to naive Monte Carlo sampling, they also introduce bias. Experimental results demonstrate that the milestone method underestimates true solve rates for many real-world tasks due to its constraining assumptions. The expert best-of-N method exhibits even more severe underestimation across all tasks, attributed to an inherently flawed re-weighting factor. To enhance the accuracy of capability estimates of AI agents on difficult tasks, we suggest future work should leverage the rich literature on Monte Carlo Estimators.
Abstract（参考訳）: AIシステムからのリスクを軽減するためには、その能力を正確に評価する必要があります。これは、稀にしか表示されない場合に特に困難である。 Phuongらは、与えられたタスクを完了したAIエージェントの確率をよりよく推定することを目的とした2つの方法を提案する。マイルストーン法はタスクをサブタスクに分解し、全体の成功率の推定を改善する。これらの手法をモンテカルロ推定器として解析したところ、両者ともモンテカルロサンプリングに比べて分散を効果的に減少させるが、バイアスももたらされることが判明した。実験結果から,本手法は実世界の多くの課題に対する真解率を過小評価する。専門家のベスト・オブ・N法は、本質的に欠陥のある再重み付け因子に起因する全てのタスクに対してさらに深刻な過小評価を示す。困難なタスクにおけるAIエージェントの能力推定の精度を高めるため、今後の研究はモンテカルロ推定器の豊富な文献を活用するべきであると提案する。

関連論文リスト

Capabilities Ain't All You Need: Measuring Propensities in AI [32.960519634809145]
本稿では,モデル成功のためのバイオロジカルな定式化を用いて,AIの正当性を測定するための最初の公式なフレームワークを紹介する。私たちは、どの程度の確率がシフトしているか、これがタスクにどんな影響を及ぼすかを測定することができることに気付きました。我々は、それぞれ別々に比較して、妥当性と能力を組み合わせる際に、より強い予測力を得る。
論文参考訳（メタデータ） (2026-02-20T12:40:18Z)
Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。 GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文参考訳（メタデータ） (2026-02-03T11:41:02Z)
Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。個々の見積もりはモンテカルロシミュレーションによって集約される。
論文参考訳（メタデータ） (2025-12-09T17:54:17Z)
AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。 AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文参考訳（メタデータ） (2025-11-11T14:57:54Z)
Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots [13.26825865228582]
ロボット操作タスクのためのVLAモデルに特化して設計された8つの不確実性指標と5つの品質指標を提案する。我々は,3つの最先端VLAモデルから908のタスク実行を成功させる大規模実証実験により,その有効性を評価する。
論文参考訳（メタデータ） (2025-07-22T22:15:59Z)
Coupled Distributional Random Expert Distillation for World Model Online Imitation Learning [25.304836126280424]
イミテーション・ラーニング(IL)は、ロボット工学、自律運転、医療など、さまざまな分野において、エージェントが専門家によるデモンストレーションから複雑な振る舞いを学べることによって、目覚ましい成功を収めた。既存のILメソッドは、特に世界モデルフレームワークにおける敵の報酬や価値の定式化に依存する場合、不安定な課題に直面します。本稿では,これらの制約に対処するオンライン模倣学習手法について,密度推定のためのランダムネットワーク蒸留(RND)に基づく報酬モデルを用いて提案する。
論文参考訳（メタデータ） (2025-05-04T19:32:48Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
What Are the Odds? Improving the foundations of Statistical Model Checking [3.789219860006095]
マルコフ決定プロセス(MDP)は不確実性の下での意思決定の基本的なモデルである。従来の検証アルゴリズムは、MDPの振る舞いを管理する確率の正確な知識を前提としている。我々はMDPの知識を活用する専門的なアプローチを提案する。
論文参考訳（メタデータ） (2024-04-08T11:47:46Z)
Optimal Parameter and Neuron Pruning for Out-of-Distribution Detection [36.4610463573214]
我々は,textbfOptimal textbfParameter と textbfNeuron textbfPruning (textbfOPNP) アプローチを提案し,OODサンプルを検出する。我々の提案は、トレーニングフリーで、他のポストホックメソッドと互換性があり、すべてのトレーニングデータから情報を探索する。
論文参考訳（メタデータ） (2024-02-04T07:31:06Z)
Inverse Reinforcement Learning with Sub-optimal Experts [56.553106680769474]
与えられた専門家の集合と互換性のある報酬関数のクラスの理論的性質について検討する。以上の結果から,複数の準最適専門家の存在が,相反する報酬の集合を著しく減少させる可能性が示唆された。我々は,最適なエージェントの1つに十分近い準最適専門家のパフォーマンスレベルが最適である場合に,最小限の最適化を行う一様サンプリングアルゴリズムを解析する。
論文参考訳（メタデータ） (2024-01-08T12:39:25Z)
Making Pre-trained Language Models both Task-solvers and Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文参考訳（メタデータ） (2023-07-21T02:51:41Z)
SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文参考訳（メタデータ） (2022-03-14T04:26:40Z)
Distributed randomized Kaczmarz for the adversarial workers [12.372713404289264]
最小二乗問題に対して逆耐性の反復的アプローチを提案する。提案手法の効率性は, 敵の存在下でのシミュレーションで示される。
論文参考訳（メタデータ） (2022-02-28T21:10:43Z)
Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文参考訳（メタデータ） (2022-01-11T23:01:12Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文参考訳（メタデータ） (2021-07-05T07:18:20Z)
What's a Good Prediction? Challenges in evaluating an agent's knowledge [0.9281671380673306]
一般知識の精度と有用性の矛盾を示す。本稿では,オンライン連続学習環境において連続的に発生する代替評価手法を提案する。本稿では,その利用による予測評価について初めて考察する。
論文参考訳（メタデータ） (2020-01-23T21:44:43Z)
Proxy Tasks and Subjective Measures Can Be Misleading in Evaluating Explainable AI Systems [14.940404609343432]
我々は、XAIシステムを評価するための2つの現在一般的な手法を評価した。その結果,プロキシタスクによる評価は,実際の意思決定タスクによる評価結果の予測には至らなかった。我々の研究は、誤解を招く評価手法を採用することで、人間やAI単独よりも確実にパフォーマンスを発揮できる人間とAIチームの開発に向けた進歩が、必然的に鈍化している可能性があることを示唆している。
論文参考訳（メタデータ） (2020-01-22T22:14:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。