論文の概要: On Decision-Making Agents and Higher-Order Causal Processes
- arxiv url: http://arxiv.org/abs/2512.10937v1
- Date: Thu, 11 Dec 2025 18:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.560898
- Title: On Decision-Making Agents and Higher-Order Causal Processes
- Title(参考訳): 意思決定エージェントと高次因果過程について
- Authors: Matt Wilson,
- Abstract要約: 我々は,POMDPにおける意思決定エージェントとワンインプットプロセス機能との正確な対応を確立する。
我々は、この視点をマルチエージェントシステムに拡張し、マルチインプットプロセス関数の自然領域として観測非依存の分散化POMDPを同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We establish a precise correspondence between decision-making agents in partially observable Markov decision processes (POMDPs) and one-input process functions, the classical limit of higher-order quantum operations. In this identification an agent's policy and memory update combine into a process function w that interacts with a POMDP environment via the link product. This suggests a dual interpretation: in the physics view, the process function acts as the environment into which local operations (agent interventions) are inserted, whereas in the AI view it encodes the agent and the inserted functions represent environments. We extend this perspective to multi-agent systems by identifying observation-independent decentralized POMDPs as natural domains for multi-input process functions.
- Abstract(参考訳): 我々は、部分的に観測可能なマルコフ決定過程(POMDP)における意思決定エージェントと高次量子演算の古典的極限である1入力プロセス関数との正確な対応を確立する。
この識別において、エージェントのポリシーとメモリ更新は、リンク製品を介してPOMDP環境と相互作用するプロセス関数wに結合する。
物理の観点では、プロセス関数は局所的な操作(エージェントの介入)が挿入される環境として機能し、AIの観点ではエージェントをエンコードし、挿入された関数は環境を表す。
我々は、この視点をマルチエージェントシステムに拡張し、マルチインプットプロセス関数の自然領域として観測非依存の分散化POMDPを同定する。
関連論文リスト
- Towards General Agentic Intelligence via Environment Scaling [78.66355092082253]
高度なエージェントインテリジェンスは、現実世界のアプリケーションに大規模言語モデルをデプロイするための前提条件である。
完全にシミュレートされた異種環境を自動的に構築するスケーラブルなフレームワークを設計する。
エージェントベンチマーク, tau-bench, tau2-Bench, ACEBenchの実験により, トレーニングモデルである AgentScaler が, モデルの関数呼び出し能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-16T17:57:20Z) - PIPA: A Unified Evaluation Protocol for Diagnosing Interactive Planning Agents [12.052972947563424]
既存のベンチマークでは、タスク完了に基づくエージェントのパフォーマンスを、全体的な効果のプロキシとして評価している。
対話型タスク計画エージェントの行動過程を概念化する統合評価プロトコルPIPAを提案する。
分析の結果,エージェントは異なる行動段階において優れており,ユーザ満足度は結果と中間行動の両方によって形成されていることがわかった。
論文 参考訳(メタデータ) (2025-05-02T21:27:10Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。
我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-21T18:32:44Z) - Federated Temporal Difference Learning with Linear Function Approximation under Environmental Heterogeneity [44.2308932471393]
モデル推定の交換により,エージェント数の線形収束速度が向上することを示す。
低ヘテロジニティ系では、モデル推定を交換すると、エージェントの数で線形収束速度が向上する。
論文 参考訳(メタデータ) (2023-02-04T17:53:55Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。