論文の概要: Is there a half-life for the success rates of AI agents?
- arxiv url: http://arxiv.org/abs/2505.05115v1
- Date: Thu, 08 May 2025 10:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.845797
- Title: Is there a half-life for the success rates of AI agents?
- Title(参考訳): AIエージェントの成功率には半減期はあるか?
- Authors: Toby Ord,
- Abstract要約: 長時間のタスクにおけるAIエージェントのパフォーマンスは、人間がタスクを行うのに要する毎分、一定の割合で失敗する率によって説明できることを示す。
これは、タスクの長さが指数関数的に減少し、各エージェントがそれぞれのハーフライフによって特徴づけられることを意味する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building on the recent empirical work of Kwa et al. (2025), I show that within their suite of research-engineering tasks the performance of AI agents on longer-duration tasks can be explained by an extremely simple mathematical model -- a constant rate of failing during each minute a human would take to do the task. This implies an exponentially declining success rate with the length of the task and that each agent could be characterised by its own half-life. This empirical regularity allows us to estimate the success rate for an agent at different task lengths. And the fact that this model is a good fit for the data is suggestive of the underlying causes of failure on longer tasks -- that they involve increasingly large sets of subtasks where failing any one fails the task. Whether this model applies more generally on other suites of tasks is unknown and an important subject for further work.
- Abstract(参考訳): Kwa et al(2025年)の最近の経験的な仕事に基づいて、私は、彼らの一連の研究エンジニアリングタスクの中で、長いデューレーションタスクにおけるAIエージェントのパフォーマンスは、非常に単純な数学的モデルによって説明できることを示します。
これは、タスクの長さが指数関数的に減少し、各エージェントがそれぞれのハーフライフによって特徴づけられることを意味する。
この経験的規則性は、異なるタスク長のエージェントの成功率を推定することを可能にする。
そして、このモデルがデータに適しているという事実は、長いタスクにおける失敗の根底にある原因を示唆している。
このモデルが他のタスクスイートにもっと一般的に適用されるかどうかは不明であり、今後の研究にとって重要な課題である。
関連論文リスト
- PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks [57.89516354418451]
我々は,HumaN-Robotコラボレーション(PARTNR)における計画と推論タスクのベンチマークを示す。
大規模言語モデル(LLM)を用いた半自動タスク生成パイプラインを用いる。
我々は、計画、知覚、スキル実行の軸を越えて、PartinNRタスクにおける最先端のLCMを分析します。
論文 参考訳(メタデータ) (2024-10-31T17:53:12Z) - Harnessing Pre-trained Generalist Agents for Software Engineering Tasks [13.733085206098258]
深層強化学習(DRL)は、ゲームテストやジョブショップスケジューリング問題の解決といった複雑なタスクの自動化に成功している。
専門のDRLエージェントは、他のタスクへの一般化性の欠如に悩まされており、効果的に開発および再訓練するためのかなりの時間を必要としている。
近年、DRL研究者は、様々な環境からポリシーを学習し、新しいタスクにおけるスペシャリストと同等以上のパフォーマンスを達成できるジェネラリストエージェントの開発を開始している。
論文 参考訳(メタデータ) (2023-12-24T18:39:58Z) - One-shot Visual Imitation via Attributed Waypoints and Demonstration
Augmentation [14.391752643263725]
一発の視覚的模倣では、エージェントは1つの視覚的デモンストレーションだけを与えられた新しいタスクのインスタンスを解決しなければならない。
分析の結果, DAgger問題の原因は, 純粋なオフライントレーニング, オブジェクトとのインタラクションにおける最終センチメートル誤差, 実際のタスクではなくタスクコンテキストに不適合であることがわかった。
我々のモデルは、最近の2つのベンチマークで100%と48%の成功率を獲得し、それぞれ90%と20%の改善を実現しています。
論文 参考訳(メタデータ) (2023-02-09T18:56:37Z) - Generalizing to New Tasks via One-Shot Compositional Subgoals [23.15624959305799]
以前は見つからなかったタスクをほとんど、あるいはまったく監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。
適応型「近未来」サブゴールを用いて、模倣学習エージェントを訓練することにより、これらの問題に対処しようとするCASEを導入する。
実験の結果,提案手法は従来よりも30%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-16T14:30:11Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z) - Clinical Risk Prediction with Temporal Probabilistic Asymmetric
Multi-Task Learning [80.66108902283388]
マルチタスク学習手法は、臨床リスク予測などの安全クリティカルな応用に注意を払って使用すべきである。
既存の非対称なマルチタスク学習手法は、低損失のタスクから高損失のタスクへの知識伝達を行うことにより、この負の伝達問題に対処する。
特徴レベルの不確実性に基づいて,特定のタスク/タイムステップから関連する不確実なタスクへの知識伝達を行う,新しい時間的非対称型マルチタスク学習モデルを提案する。
論文 参考訳(メタデータ) (2020-06-23T06:01:36Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。