論文の概要: Toward Agents That Reason About Their Computation
- arxiv url: http://arxiv.org/abs/2510.22833v1
- Date: Sun, 26 Oct 2025 21:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.384367
- Title: Toward Agents That Reason About Their Computation
- Title(参考訳): 計算に反するエージェントを目指して
- Authors: Adrian Orenstein, Jessica Chen, Gwyneth Anne Delos Santos, Bayley Sapara, Michael Bowling,
- Abstract要約: 75%のゲームにおいて,計算処理の理由となるエージェントの性能が向上していることが示される。
個々のゲームを分析し、エージェントがどの効率を得るかを示す。
- 参考スコア(独自算出の注目度): 8.19520537308822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning agents can achieve superhuman performance in many complex tasks, they typically do not become more computationally efficient as they improve. In contrast, humans gradually require less cognitive effort as they become more proficient at a task. If agents could reason about their compute as they learn, could they similarly reduce their computation footprint? If they could, we could have more energy efficient agents or free up compute cycles for other processes like planning. In this paper, we experiment with showing agents the cost of their computation and giving them the ability to control when they use compute. We conduct our experiments on the Arcade Learning Environment, and our results demonstrate that with the same training compute budget, agents that reason about their compute perform better on 75% of games. Furthermore, these agents use three times less compute on average. We analyze individual games and show where agents gain these efficiencies.
- Abstract(参考訳): 強化学習エージェントは多くの複雑なタスクにおいて超人的性能を達成することができるが、通常、改善するほど計算効率が良くなることはない。
対照的に、人間はタスクにおいてより熟達するにつれて、認知力の低下を徐々に要求する。
もしエージェントが学習した計算について推論できたら、同様に計算のフットプリントを削減できるだろうか?
もし可能であれば、よりエネルギー効率のよいエージェントを用意したり、計画のような他のプロセスの計算サイクルを解放できるでしょう。
本稿では,エージェントに計算のコストを示す実験を行い,計算使用時の制御能力を示す。
アーケード学習環境で実験を行い、同じトレーニング計算予算で、その計算を理由づけるエージェントが75%のゲームでより良いパフォーマンスを発揮することを示した。
さらに、これらのエージェントは平均して3倍少ない計算を使用する。
個々のゲームを分析し、エージェントがどの効率を得るかを示す。
関連論文リスト
- How Do AI Agents Do Human Work? Comparing AI and Human Workflows Across Diverse Occupations [112.57167042285437]
エージェントが人間とエージェントの労働者の直接比較を初めて提示することで、エージェントがどのように人間の仕事をするかを考察する。
結果が88.3%速く、コストが90.4-96.2%低いことが判明した。
論文 参考訳(メタデータ) (2025-10-26T18:10:22Z) - AI Agents as Universal Task Solvers [94.49762121230042]
我々は,過去のデータを用いて,普遍的な解法が達成できる最適なスピードアップが,アルゴリズム情報と密接な関係があることを示す。
我々は、推論モデルをスケールする際に最適化する重要な量は時間であり、学習における重要な役割は、これまでは間接的にのみ考慮されてきたと論じている。
論文 参考訳(メタデータ) (2025-10-14T02:17:54Z) - ATA: Adaptive Task Allocation for Efficient Resource Management in Distributed Machine Learning [54.08906841213777]
非同期手法は分散機械学習における計算の並列化の基礎となる。
本稿では,不均一かつランダムな計算時間分布に適応するATA(Adaptive Task Allocation)を提案する。
ATAは最適なタスク割り当てを識別し、計算時間に関する事前の知識を持つメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2025-02-02T12:22:26Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Efficient Deep Reinforcement Learning with Predictive Processing
Proximal Policy Optimization [3.0217238755526057]
センサ状態を予測するリカレントニューラルネットワークは,サプライズを最小化するために有効であることを示す。
本稿では,P4O(Predictive Processing Proximal Policy Optimization)エージェントを提案する。
これは、世界モデルを隠れた状態に統合することで、PPOアルゴリズムの繰り返し変種に予測処理を適用する。
論文 参考訳(メタデータ) (2022-11-11T14:30:59Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Evaluating Agents without Rewards [33.17951971728784]
エージェントが外部の監督なしに学ぶための競争目標が提案されている。
我々はエージェント行動の事前収集データセットの潜在的な目的をふりかえり計算する。
3つの本質的目標が、タスク報酬よりも人間の行動類似度指標に強く関連していることが分かりました。
論文 参考訳(メタデータ) (2020-12-21T18:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。