Fugu-MT 論文翻訳(概要): Adversarial Thermodynamics

論文の概要: Adversarial Thermodynamics

arxiv url: http://arxiv.org/abs/2510.08298v1
Date: Thu, 09 Oct 2025 14:50:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-10 17:54:15.142398
Title: Adversarial Thermodynamics
Title（参考訳）: 対向熱力学
Authors: Maite Arcos, Philippe Faist, Takahiro Sagawa, Jonathan Oppenheim,
Abstract要約: 逆資源理論に基づく非平衡熱力学の枠組みを開発する。我々は、Szilardエンジンをケリーギャンブルに同型なゲームとして再放送した。合理的なエージェントが受け入れる保証された作業量は、R'enyiの発散によって与えられることを示す。
参考スコア（独自算出の注目度）: 0.1666604949258699
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In thermodynamics, an agent's ability to extract work is fundamentally constrained by their environment. Traditional frameworks struggle to capture how strategic decision-making under uncertainty -- particularly an agent's tolerance for risk -- determines the trade-off between extractable work and probability of success in finite-scale experiments. Here, we develop a framework for non-equilibrium thermodynamics based on adversarial resource theories, in which work extraction is modelled as an adversarial game for an agent extracting work. Within this perspective, we recast the Szilard engine as a game isomorphic to Kelly gambling, an information-theoretic model of optimal betting under uncertainty -- but with a thermodynamic utility function. Extending the framework to finite-size regimes, we apply a risk-reward trade-off to find an interpretation of the Renyi-divergences, in terms of extractable work for a given failure probability. By incorporating risk sensitivity via utility functions, we show that the guaranteed amount of work a rational agent would accept instead of undertaking a risky protocol is given by a R\'enyi divergence. This provides a unified picture of thermodynamics and gambling, and highlights how generalized free energies emerge from an adversarial setup.
Abstract（参考訳）: 熱力学では、エージェントが仕事を抽出する能力は、その環境によって根本的に制限される。従来のフレームワークは、不確実性の下での戦略的意思決定(特にリスクに対するエージェントの寛容性)が、抽出可能な作業と有限規模の実験で成功する確率の間のトレードオフを決定するかを把握するののに苦労している。そこで本研究では,作業抽出をエージェント抽出用対向ゲームとしてモデル化する,対向資源理論に基づく非平衡熱力学の枠組みを開発する。この観点で、我々はSzilardエンジンを、不確実性の下で最適な賭けの情報理論モデルであるケリーギャンブルに同型なゲームとして再放送する。フレームワークを有限サイズの体制に拡張すると、与えられた故障確率に対する抽出可能な作業の観点から、リスク・リワードトレードオフを適用して、Renyi-divergencesの解釈を求める。ユーティリティ機能を介してリスク感度を組み込むことにより、リスクプロトコルの実施ではなく、合理的エージェントが受け入れる作業の保証量は、R'enyiの発散によって与えられることを示す。これは熱力学とギャンブルの統一的な図式を提供し、一般化された自由エネルギーが対向的な構成からどのように現れるかを強調する。

関連論文リスト

The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies [57.387081435669835]
大規模言語モデルから構築されたマルチエージェントシステムは、スケーラブルな集合知性と自己進化のための有望なパラダイムを提供する。エージェント社会が継続的自己進化、完全隔離、安全性の不変性を満たすことは不可能であることを示す。我々は、特定された安全上の懸念を軽減するために、いくつかの解決方法を提案する。
論文参考訳（メタデータ） (2026-02-10T15:18:19Z)
General Agents Contain World Models, even under Partial Observability and Stochasticity [0.913755431537592]
エージェントはランダム化を用いて環境を学習することができないことを示す。我々は一般性の概念を弱め、力の弱いエージェントが既に彼らが運用する世界のモデルを含んでいることを証明した。
論文参考訳（メタデータ） (2026-02-03T06:00:41Z)
Decoding Rewards in Competitive Games: Inverse Game Theory with Entropy Regularization [52.74762030521324]
本稿では,観察行動から報酬関数を学習するための新しいアルゴリズムを提案する。我々は,アルゴリズムの信頼性とサンプル効率について,強力な理論的保証を提供する。
論文参考訳（メタデータ） (2026-01-19T04:12:51Z)
The Silent Scholar Problem: A Probabilistic Framework for Breaking Epistemic Asymmetry in LLM Agents [0.6117371161379209]
本稿では,エージェントに双方向知識交換のための非構造的動機を与える形式的確率的枠組みを提案する。これらの蓄積された信念状態が、人間フィードバックからの強化学習(RLHF)と監視ファインチューニング(SFT)のための高品質データフィルタの検証可能な報酬信号としてどのように機能するかを示す。シミュレーションの結果、この不確実性駆動型戦略が異種環境におけるランダムベースラインを著しく上回ることを示した。
論文参考訳（メタデータ） (2025-12-24T02:02:25Z)
Emergent Risk Awareness in Rational Agents under Resource Constraints [2.69407449467596]
この研究は、生存圧力下で活動するAIエージェントの創発的行動の理解と解釈可能性を高めることを目的としている。我々は、生存駆動の嗜好シフトの影響を定量化する理論的および経験的な結果を提供する。リスク探索やリスク回避行動の出現を緩和するメカニズムを提案する。
論文参考訳（メタデータ） (2025-05-29T13:31:12Z)
Risk-Averse Reinforcement Learning with Itakura-Saito Loss [63.620958078179356]
リスク回避エージェントはリスクを最小限に抑えるポリシーを選択し、時には期待される価値を犠牲にする。状態値と行動値の関数を学習するために,板倉-斎藤偏差に基づく数値的に安定かつ数学的に損失関数を導入する。実験セクションでは、既知の解析解を含む複数のシナリオを探索し、その損失関数が代替よりも優れていることを示す。
論文参考訳（メタデータ） (2025-05-22T17:18:07Z)
Robust Optimization with Diffusion Models for Green Security [49.68562792424776]
グリーンセキュリティでは、効果的パトロールを計画するためには、密猟、違法伐採、違法漁などの敵の行動を予測する必要がある。本稿では,その強い分布適合性を利用した逆挙動モデリングのための条件付き拡散モデルを提案する。混合戦略の混合戦略を導入し, 正確なサンプリングを行うために, ツイスト型シークエンシャルモンテカルロ (SMC) サンプリング装置を用いる。
論文参考訳（メタデータ） (2025-02-19T05:30:46Z)
Optimal work extraction from quantum batteries based on the expected utility hypothesis [0.0]
量子有限系における仕事の抽出は、量子熱力学において重要な問題である。最適作業抽出が不整合なユニタリ変換によってどのように実行されるかを示す。また、エネルギーベースにおける初期量子コヒーレンスの存在による作業抽出の影響についても検討する。
論文参考訳（メタデータ） (2023-11-24T14:02:09Z)
Latent State Marginalization as a Low-cost Approach for Improving Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文参考訳（メタデータ） (2022-10-03T15:09:12Z)
Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文参考訳（メタデータ） (2022-05-21T08:39:42Z)
Probabilistic Contrastive Loss for Self-Supervised Learning [25.097498223895016]
本稿では,自己教師型学習のための確率的コントラスト損失関数を提案する。提案した損失関数の興味深い性質は実証的に示され、人間のような予測に一致する。
論文参考訳（メタデータ） (2021-12-02T23:41:52Z)
Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文参考訳（メタデータ） (2021-07-12T17:58:40Z)
Maximizing Information Gain in Partially Observable Environments via Prediction Reward [64.24528565312463]
本稿では,深いRLエージェントに対する信念に基づく報酬の活用という課題に取り組む。負のエントロピーと予測される予測報酬の正確な誤差を導出する。この洞察は、予測報酬を用いたいくつかの分野の理論的動機を与える。
論文参考訳（メタデータ） (2020-05-11T08:13:49Z)
Risk-Aware Energy Scheduling for Edge Computing with Microgrid: A Multi-Agent Deep Reinforcement Learning Approach [82.6692222294594]
マイクログリッドを用いたMECネットワークにおけるリスク対応エネルギースケジューリング問題について検討する。ニューラルネットワークを用いたマルチエージェントディープ強化学習(MADRL)に基づくアドバンテージアクター・クリティック(A3C)アルゴリズムを適用し,その解を導出する。
論文参考訳（メタデータ） (2020-02-21T02:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。