論文の概要: Towards Shutdownable Agents: Generalizing Stochastic Choice in RL Agents and LLMs
- arxiv url: http://arxiv.org/abs/2604.17502v1
- Date: Sun, 19 Apr 2026 15:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.558789
- Title: Towards Shutdownable Agents: Generalizing Stochastic Choice in RL Agents and LLMs
- Title(参考訳): シャットダウン可能なエージェントを目指して:RLエージェントとLLMの確率的選択を一般化する
- Authors: Carissa Cullen, Harry Garland, Alexander Roman, Louis Thomson, Christos Ziakas, Elliott Thornley,
- Abstract要約: 我々は、DREST(Discounted Reward for Same-Length Trajectories)を用いて、異なる長さの軌道間の好みを欠くようにエージェントを訓練する。
その結果, DreST RL は, ベースラインよりも11% (PPO) と18% (A2C) が有効であることが判明した。
- 参考スコア(独自算出の注目度): 34.04300270586953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Misaligned artificial agents might resist shutdown. One proposed solution is to train agents to lack preferences between different-length trajectories. The Discounted Reward for Same-Length Trajectories (DReST) reward function does this by penalizing agents for repeatedly choosing same-length trajectories, and thus incentivizes agents to (1) choose stochastically between different trajectory-lengths (be Neutral about trajectory-lengths), and (2) pursue goals effectively conditional on each trajectory-length (be Useful). In this paper, we use DReST to train deep RL agents and fine-tune LLMs to be Neutral and Useful. We find that these DReST agents generalize to being Neutral and Useful in unseen contexts at test time. Indeed, DReST RL agents achieve 11% (PPO) and 18% (A2C) higher Usefulness on our test set than baseline agents, and our fine-tuned LLM achieves maximum Usefulness and near-maximum Neutrality. Our results provide some early evidence that DReST could be used to train more advanced agents to be Useful and Neutral. Prior theoretical work suggests that these agents would be useful and shutdownable.
- Abstract(参考訳): ミスアライメントされた人工エージェントはシャットダウンに抵抗するかもしれない。
提案された解決策の1つは、異なる長さの軌道間の嗜好を欠くようにエージェントを訓練することである。
DREST(Discounted Reward for Same-Length Trajectories)報酬関数は、同じ長さの軌跡を何度も選択するためのエージェントをペナライズすることでこれを行ないます。
本稿では,DReSTを用いて深部RLエージェントと微調整LDMをニュートラルで有用であるように訓練する。
これらのDReSTエージェントは、テスト時に目に見えない文脈で中性かつ有用であることに一般化されている。
実際, DREST RL 剤は, ベースライン剤よりも11% (PPO) と18% (A2C) が有効であり, 我々の微調整 LLM は最大有用性とほぼ最大中立性を達成する。
我々の結果は、DReSTがより高度なエージェントを有効で中立的に訓練するのに使えるという初期の証拠を提示する。
以前の理論的研究は、これらのエージェントが有用であり、シャットダウン可能であることを示唆していた。
関連論文リスト
- Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Towards shutdownable agents via stochastic choice [39.58317527488534]
グリッドワールドをナビゲートするための単純なエージェントを訓練するために、DReST報酬関数を使用します。
これらのエージェントは、USEFULとNEUTRALで学ぶことができる。
我々の理論的研究は、これらのエージェントが有用でシャットダウン可能であることを示唆している。
論文 参考訳(メタデータ) (2024-06-30T19:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。