Fugu-MT 論文翻訳(概要): Beyond Reward: A Bounded Measure of Agent Environment Coupling

論文の概要: Beyond Reward: A Bounded Measure of Agent Environment Coupling

arxiv url: http://arxiv.org/abs/2603.01283v1
Date: Sun, 01 Mar 2026 21:38:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.604608
Title: Beyond Reward: A Bounded Measure of Agent Environment Coupling
Title（参考訳）: Beyond Reward: エージェント環境の結合のバウンドな測定方法
Authors: Wael Hafez, Cameron Reid, Amit Nazeri,
Abstract要約: 両予測可能性 (P) は, 観測, 行動, 結果ループにおける共有情報の合計情報に対する比率として導入する。補助モニタであるIDT(Information Digital Twin)は、インタラクションストリームからPとその診断コンポーネントを演算する。我々は,MuJoCo HalfCheetahのSACおよびPPO剤を8剤,環境側摂動を168試験で評価した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-world reinforcement learning (RL) agents operate in closed-loop systems where actions shape future observations, making reliable deployment under distribution shifts a persistent challenge. Existing monitoring relies on reward or task metrics, capturing outcomes but missing early coupling failures. We introduce bipredictability (P) as the ratio of shared information in the observation, action, outcome loop to the total available information, a principled, real time measure of interaction effectiveness with provable bounds, comparable across tasks. An auxiliary monitor, the Information Digital Twin (IDT), computes P and its diagnostic components from the interaction stream. We evaluate SAC and PPO agents on MuJoCo HalfCheetah under eight agent, and environment-side perturbations across 168 trials. Under nominal operation, agents exhibit P = 0.33 plus minus 0.02, below the classical bound of 0.5, revealing an informational cost of action selection. The IDT detects 89.3% of perturbations versus 44.0% for reward based monitoring, with 4.4x lower median latency. Bipredictability enables early detection of interaction degradation before performance drops and provides a prerequisite signal for closed loop self regulation in deployed RL systems.
Abstract（参考訳）: 実世界の強化学習(RL)エージェントは、行動が将来の観測を形作るクローズドループシステムで動作し、分散下での信頼性の高いデプロイメントは永続的な課題である。既存の監視は報酬やタスクのメトリクスに依存し、成果を捉えるが、初期の結合障害を欠く。両予測可能性 (P) を, 観測, 行動, 結果ループの合計情報に対する共有情報の比率として導入する。補助モニタであるIDT(Information Digital Twin)は、インタラクションストリームからPとその診断コンポーネントを演算する。我々は,MuJoCo HalfCheetahのSACおよびPPO剤を8剤,環境側摂動を168試験で評価した。名目上の操作では、エージェントはP = 0.33 プラス 0.02 となり、0.5 の古典的な境界以下となり、情報的な行動選択のコストが明らかになる。 IDTは89.3%の摂動を検出し、報奨ベースのモニタリングでは44.0%、中央値のレイテンシは4.4倍である。 Bipredictabilityは、性能低下前の相互作用劣化を早期に検出し、デプロイされたRLシステムでクローズドループ自己制御のための必須信号を提供する。

関連論文リスト

Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文参考訳（メタデータ） (2026-02-10T21:08:53Z)
Robust Federated Learning for Malicious Clients using Loss Trend Deviation Detection [0.0]
フェデレートラーニング(FL)は、ローカルデバイスに生データが残ることを保証しながら、分散クライアント間の協調的なモデルトレーニングを容易にする。このようなクライアントは、誤解を招く更新を送信することでトレーニングプロセスに干渉し、グローバルモデルのパフォーマンスと信頼性に悪影響を及ぼす可能性がある。モデル勾配ではなく時間的損失のダイナミクスを監視して悪意のある行動を検知・緩和する,軽量かつプライバシ保護型防衛フレームワークであるFL-LTDを提案する。
論文参考訳（メタデータ） (2026-01-28T18:09:53Z)
Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文参考訳（メタデータ） (2025-09-27T20:57:48Z)
Mutual Information Tracks Policy Coherence in Reinforcement Learning [0.0]
強化学習(RL)エージェントは、センサの故障、アクチュエータの摩耗、環境変化による劣化に直面している。本稿では,RLの基本動力学を両立させる情報理論フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-12T17:24:20Z)
Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-07T02:24:44Z)
Collaborative Value Function Estimation Under Model Mismatch: A Federated Temporal Difference Analysis [55.13545823385091]
フェデレーション強化学習(FedRL)は、エージェント間のデータ交換を防止し、データのプライバシを維持しながら協調学習を可能にする。現実世界のアプリケーションでは、各エージェントは若干異なる遷移ダイナミクスを経験し、固有のモデルミスマッチを引き起こす。情報共有の適度なレベルでさえ、環境固有のエラーを著しく軽減することを示す。
論文参考訳（メタデータ） (2025-03-21T18:06:28Z)
Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
本稿では,アクション予測中にエージェントを監視し,将来エラーが発生する可能性がある場合に介入することを提案する。 WhoDunitEnv、コード生成タスク、そしてリソース持続可能性のためのGovSim環境の実験は、我々のアプローチがパフォーマンスを大幅に向上させることを示している。
論文参考訳（メタデータ） (2025-02-09T18:35:08Z)
Analyzing Participants' Engagement during Online Meetings Using Unsupervised Remote Photoplethysmography with Behavioral Features [50.82725748981231]
エンゲージメント測定は、医療、教育、サービスに応用される。生理的特徴と行動的特徴の使用は可能であるが、従来の生理的測定の非現実性は接触センサーの必要性により生じる。コンタクトセンサの代替として, 教師なし光胸腺造影(胸腔鏡)の有用性を実証する。
論文参考訳（メタデータ） (2024-04-05T20:39:16Z)
Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。 MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文参考訳（メタデータ） (2023-10-18T11:36:42Z)
Multi-agent active perception with prediction rewards [18.780904566592852]
マルチエージェントアクティブな知覚は、エージェントのチームが協調して観測を集め、隠れた変数の合同推定を計算するタスクである。我々は,マルチエージェントの能動知覚を,凸集中型予測報酬を用いた部分観測可能なマルコフ決定プロセス(Dec-POMDP)としてモデル化する。この結果から,任意のDec-POMDP解法をマルチエージェント能動認識問題に適用し,共同推定の明示的な計算を行なわずに不確実性を抑えることが可能となった。
論文参考訳（メタデータ） (2020-10-22T16:10:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。