論文の概要: Real-Time Procedural Learning From Experience for AI Agents
- arxiv url: http://arxiv.org/abs/2511.22074v1
- Date: Thu, 27 Nov 2025 03:51:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.381039
- Title: Real-Time Procedural Learning From Experience for AI Agents
- Title(参考訳): AIエージェントの経験から学ぶリアルタイム手続き学習
- Authors: Dasheng Bi, Yubin Hu, Mohammed N. Nasir,
- Abstract要約: 我々は, eXperiences Indexed by State (PRAXIS) によるエージェントの手続き的リコールを提案する。
PRAXISは行動の結果を記憶し、過去のエピソードの環境および内部状態を現在の状態と共同でマッチングすることでそれらを回収する。
PRAXISは、リアルタイムに生成される検索された状態-反応-反例によるエージェントアクション選択を強化する。
- 参考スコア(独自算出の注目度): 2.543194442104227
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Learning how to do things from trial and error in real time is a hallmark of biological intelligence, yet most LLM-based agents lack mechanisms to acquire procedural knowledge after deployment. We propose Procedural Recall for Agents with eXperiences Indexed by State (PRAXIS), a lightweight post-training learning mechanism that stores the consequences of actions and retrieves them by jointly matching environmental and internal states of past episodes to the current state. PRAXIS augments agentic action selection with retrieved state-action-result exemplars that are generated in real time. When evaluated on the REAL web browsing benchmark, PRAXIS improves task completion accuracy, reliability, and cost efficiency across different foundation model backbones, and shows preliminary generalization to unseen tasks in similar environments. These results demonstrate that PRAXIS enables the practical adoption of AI agents in fast-evolving stateful environments by helping them learn new procedures effectively.
- Abstract(参考訳): 試行錯誤をリアルタイムで行う方法を学ぶことは生物学的知能の目印だが、ほとんどのLCMベースのエージェントは、デプロイ後に手続き的な知識を取得するメカニズムを欠いている。
Indexed by State (PRAXIS) は,行動の結果を記憶し,過去のエピソードの環境状態と内部状態とを協調的に一致させることで,それらを回収する軽量な訓練後学習機構である。
PRAXISは、リアルタイムに生成される検索された状態-反応-反例によるエージェントアクション選択を強化する。
REALウェブブラウジングベンチマークで評価すると、PRAXISは、異なる基礎モデルバックボーン間のタスク完了精度、信頼性、コスト効率を改善し、類似環境における未確認タスクに対する予備的な一般化を示す。
これらの結果から、PRAXISは、進化の速いステートフルな環境におけるAIエージェントの実践的な採用を可能にし、新しい手順を効果的に学習できるようにする。
関連論文リスト
- AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - UI-Evol: Automatic Knowledge Evolving for Computer Use Agents [23.21178608410048]
自律的なGUI知識進化のためのプラグイン・アンド・プレイモジュールであるUI-Evolを提案する。
UI-Evolは、実際のエージェントと環境の相互作用から忠実な客観的なアクションシーケンスを抽出するRetrace Stageと、既存の知識を洗練させるCritique Stageの2つのステージで構成されている。
この結果から,UI-Evolはタスク性能を著しく向上させるだけでなく,コンピュータ利用エージェントの行動標準偏差がこれまで見過ごされていた問題にも対処できることがわかった。
論文 参考訳(メタデータ) (2025-05-28T04:32:05Z) - REAL: Benchmarking Autonomous Agents on Deterministic Simulations of Real Websites [9.58858258192147]
実世界のWebサイトの決定論的シミュレーションにおけるマルチターンエージェント評価のためのベンチマークおよびフレームワークであるREALを紹介する。
また、日々の複雑なユーザインタラクションを反映した112の実践的なタスクからなるベンチマークもリリースしています。
我々のフレームワークは、新しいタスクの容易な統合、再現可能な評価、スケーラブルな後学習データ生成をサポートします。
論文 参考訳(メタデータ) (2025-04-15T18:22:55Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。
既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。
RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文 参考訳(メタデータ) (2024-09-18T20:03:32Z) - State Representations as Incentives for Reinforcement Learning Agents: A Sim2Real Analysis on Robotic Grasping [3.4777703321218225]
本研究は、特定のロボットタスクを解くためのエージェントのインセンティブ化における様々な表現の効果について検討する。
手作りの数値状態から符号化された画像ベース表現に至るまで、状態表現の連続体が定義される。
シミュレーションにおけるエージェントの課題解決能力に対する各表現の影響と実ロボットへの学習方針の伝達可能性について検討した。
論文 参考訳(メタデータ) (2023-09-21T11:41:22Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。