論文の概要: Safe In-Context Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25582v1
- Date: Mon, 29 Sep 2025 23:07:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.957506
- Title: Safe In-Context Reinforcement Learning
- Title(参考訳): 安全なインテクスト強化学習
- Authors: Amir Moeini, Minjae Kwon, Alper Kamil Bozkurt, Yuichi Motai, Rohan Chandra, Lu Feng, Shangtong Zhang,
- Abstract要約: In-context reinforcement learning (ICRL) は、エージェントが事前訓練の後にパラメータを更新せずに配布外テストタスクに適応できる新しいRLパラダイムである。
本稿では,ICRLの適応プロセスの安全性を制約付きマルコフ決定プロセスの枠組みで促進する手法を提案する。
- 参考スコア(独自算出の注目度): 19.11554873825587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context reinforcement learning (ICRL) is an emerging RL paradigm where the agent, after some pretraining procedure, is able to adapt to out-of-distribution test tasks without any parameter updates. The agent achieves this by continually expanding the input (i.e., the context) to its policy neural networks. For example, the input could be all the history experience that the agent has access to until the current time step. The agent's performance improves as the input grows, without any parameter updates. In this work, we propose the first method that promotes the safety of ICRL's adaptation process in the framework of constrained Markov Decision Processes. In other words, during the parameter-update-free adaptation process, the agent not only maximizes the reward but also minimizes an additional cost function. We also demonstrate that our agent actively reacts to the threshold (i.e., budget) of the cost tolerance. With a higher cost budget, the agent behaves more aggressively, and with a lower cost budget, the agent behaves more conservatively.
- Abstract(参考訳): In-context reinforcement learning (ICRL) は、エージェントが事前訓練の後にパラメータを更新せずに配布外テストタスクに適応できる新しいRLパラダイムである。
エージェントは、入力(すなわちコンテキスト)をそのポリシーニューラルネットワークに継続的に拡張することにより、これを実現する。
例えば、入力は、エージェントが現在の時間ステップまでアクセスするすべての履歴エクスペリエンスである可能性がある。
エージェントのパフォーマンスは、パラメータを更新することなく、入力が大きくなるにつれて向上する。
本研究では,制約付きマルコフ決定プロセスの枠組みにおいて,ICRLの適応プロセスの安全性を促進する最初の手法を提案する。
言い換えれば、パラメータ更新不要な適応プロセスの間、エージェントは報酬を最大化するだけでなく、追加のコスト関数も最小にする。
また,我々のエージェントは,コスト耐性のしきい値(予算)に積極的に反応することを示した。
コスト予算が高ければ、エージェントはより積極的に振る舞うことができ、コスト予算が低ければ、エージェントはより保守的に振る舞う。
関連論文リスト
- Towards Provable Emergence of In-Context Reinforcement Learning [20.54963042400693]
いくつかの強化学習(RL)エージェントは、タスク分布の事前学習後にパラメータを更新することなく、広範囲に分散したタスクを解くことができる。
パラメータ更新を行う代わりに、新しいタスクで評価されると、事前訓練されたエージェントは、コンテキストと呼ばれる追加の入力に対してポリシーを条件付ける。
この現象は一般に in-context RL (ICRL) と呼ばれる。
論文 参考訳(メタデータ) (2025-09-22T20:23:09Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。
我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文 参考訳(メタデータ) (2025-05-23T11:40:58Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。