論文の概要: Adversarial Thermodynamics
- arxiv url: http://arxiv.org/abs/2510.08298v2
- Date: Thu, 23 Oct 2025 08:15:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.02551
- Title: Adversarial Thermodynamics
- Title(参考訳): 対向熱力学
- Authors: Maite Arcos, Philippe Faist, Takahiro Sagawa, Jonathan Oppenheim,
- Abstract要約: 我々は、敵対的資源理論に基づく非平衡熱力学の枠組みを開発する。
我々は、Szilard型エンジンをケリーギャンブルに同型なゲームとみなす。
リスクのあるプロトコルを実行する代わりに、合理的なエージェントが受け入れる保証された作業量が、Renyiの発散によって与えられることを示す。
- 参考スコア(独自算出の注目度): 0.1666604949258699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In thermodynamics, an agent's ability to extract work is fundamentally constrained by their environment. Traditional frameworks struggle to capture how strategic decision-making under uncertainty, particularly an agent's tolerance for risk, determines the trade-off between extractable work and probability of success in finite-scale experiments. Here, we develop a framework for nonequilibrium thermodynamics based on adversarial resource theories, in which work extraction is modeled as an adversarial game for an agent extracting work. Within this perspective, we consider a Szilard-type engine as a game isomorphic to Kelly gambling, an information-theoretic model of optimal betting under uncertainty -- but with a thermodynamic utility function. Extending the framework to finite-size regimes, we apply a risk-reward trade-off to find an interpretation of the Renyi divergences in terms of extractable work for a given failure probability. By incorporating risk sensitivity via utility functions, we show that the guaranteed amount of work a rational agent would accept instead of undertaking a risky protocol is given by a Renyi divergence. This provides a unified picture of thermodynamics and gambling, and highlights how generalized free energies emerge from an adversarial setup.
- Abstract(参考訳): 熱力学では、エージェントが仕事を抽出する能力は、その環境によって根本的に制限される。
従来のフレームワークは、不確実性の下での戦略的意思決定、特にエージェントのリスクに対する寛容さが、抽出可能な作業と有限規模の実験の成功の確率の間のトレードオフを決定するかの把握に苦慮している。
そこで本研究では,作業抽出をエージェント抽出用対向ゲームとしてモデル化する,対向資源理論に基づく非平衡熱力学の枠組みを開発する。
この観点では、Szilard型エンジンは、不確実性の下で最適な賭けを行う情報理論モデルであるケリーギャンブルに同型であるが、熱力学的ユーティリティ機能を持つゲームであると考えている。
フレームワークを有限サイズの体制に拡張し、リスク・リワードトレードオフを適用して、与えられた故障確率に対する抽出可能な作業の観点から、レニイ分岐の解釈を求める。
実用機能を介してリスク感度を組み込むことにより、合理的なエージェントが受け入れる作業の保証量は、リスクのあるプロトコルを実行する代わりに、Renyiの発散によって与えられることを示す。
これは熱力学とギャンブルの統一的な図式を提供し、一般化された自由エネルギーが対向的な構成からどのように現れるかを強調する。
関連論文リスト
- Emergent Risk Awareness in Rational Agents under Resource Constraints [2.69407449467596]
この研究は、生存圧力下で活動するAIエージェントの創発的行動の理解と解釈可能性を高めることを目的としている。
我々は、生存駆動の嗜好シフトの影響を定量化する理論的および経験的な結果を提供する。
リスク探索やリスク回避行動の出現を緩和するメカニズムを提案する。
論文 参考訳(メタデータ) (2025-05-29T13:31:12Z) - Risk-Averse Reinforcement Learning with Itakura-Saito Loss [63.620958078179356]
リスク回避エージェントはリスクを最小限に抑えるポリシーを選択し、時には期待される価値を犠牲にする。
状態値と行動値の関数を学習するために,板倉-斎藤偏差に基づく数値的に安定かつ数学的に損失関数を導入する。
実験セクションでは、既知の解析解を含む複数のシナリオを探索し、その損失関数が代替よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:18:07Z) - Optimal work extraction from quantum batteries based on the expected utility hypothesis [0.0]
量子有限系における仕事の抽出は、量子熱力学において重要な問題である。
最適作業抽出が不整合なユニタリ変換によってどのように実行されるかを示す。
また、エネルギーベースにおける初期量子コヒーレンスの存在による作業抽出の影響についても検討する。
論文 参考訳(メタデータ) (2023-11-24T14:02:09Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Maximizing Information Gain in Partially Observable Environments via
Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。
負のエントロピーと予測される予測報酬の正確な誤差を導出する。
この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文 参考訳(メタデータ) (2020-05-11T08:13:49Z) - Risk-Aware Energy Scheduling for Edge Computing with Microgrid: A
Multi-Agent Deep Reinforcement Learning Approach [82.6692222294594]
マイクログリッドを用いたMECネットワークにおけるリスク対応エネルギースケジューリング問題について検討する。
ニューラルネットワークを用いたマルチエージェントディープ強化学習(MADRL)に基づくアドバンテージアクター・クリティック(A3C)アルゴリズムを適用し,その解を導出する。
論文 参考訳(メタデータ) (2020-02-21T02:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。