論文の概要: Active inference for action-unaware agents
- arxiv url: http://arxiv.org/abs/2508.12027v1
- Date: Sat, 16 Aug 2025 12:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.519788
- Title: Active inference for action-unaware agents
- Title(参考訳): アクション非認識エージェントの能動推論
- Authors: Filippo Torresan, Keisuke Suzuki, Ryota Kanai, Manuel Baltieri,
- Abstract要約: 能動推論(英: Active Inference)は、適応的エージェントが近似ベイズ推論の過程に関与するとみなすことができるという概念に基づいて認知を研究するための公式なアプローチである。
本稿では,アクション認識エージェントが動作認識エージェントに匹敵する性能を達成できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Active inference is a formal approach to study cognition based on the notion that adaptive agents can be seen as engaging in a process of approximate Bayesian inference, via the minimisation of variational and expected free energies. Minimising the former provides an account of perceptual processes and learning as evidence accumulation, while minimising the latter describes how agents select their actions over time. In this way, adaptive agents are able to maximise the likelihood of preferred observations or states, given a generative model of the environment. In the literature, however, different strategies have been proposed to describe how agents can plan their future actions. While they all share the notion that some kind of expected free energy offers an appropriate way to score policies, sequences of actions, in terms of their desirability, there are different ways to consider the contribution of past motor experience to the agent's future behaviour. In some approaches, agents are assumed to know their own actions, and use such knowledge to better plan for the future. In other approaches, agents are unaware of their actions, and must infer their motor behaviour from recent observations in order to plan for the future. This difference reflects a standard point of departure in two leading frameworks in motor control based on the presence, or not, of an efference copy signal representing knowledge about an agent's own actions. In this work we compare the performances of action-aware and action-unaware agents in two navigations tasks, showing how action-unaware agents can achieve performances comparable to action-aware ones while at a severe disadvantage.
- Abstract(参考訳): アクティブ推論(アクティブ推論、英: Active Inference)は、適応的エージェントが変分エネルギーと期待される自由エネルギーの最小化を通じて、近似ベイズ推論の過程に関与するとみなすことができるという概念に基づいて認知を研究するフォーマルなアプローチである。
前者の最小化は、知覚過程と学習を証拠蓄積として記述し、後者の最小化は、エージェントが時間とともにどのように行動を選択するかを記述している。
このようにして、適応剤は環境の生成モデルを考えると、好ましい観察や状態の可能性を最大化することができる。
しかし、文献ではエージェントが将来の行動をどのように計画するかを説明するために異なる戦略が提案されている。
いずれにせよ、ある種の期待される自由エネルギーは、政策、行動の順序、その望ましさの点で適切な方法を提供するという考えを共有しているが、エージェントの将来の行動に対する過去の運動経験の貢献を考えるには、様々な方法がある。
あるアプローチでは、エージェントは自身の行動を知ると仮定され、そのような知識を使って将来の計画を立てる。
他のアプローチでは、エージェントは彼らの行動に気付かず、将来の計画を立てるために、最近の観測から運動行動を推測しなければならない。
この違いは、エージェント自身の行動に関する知識を表す評価コピー信号の存在、の有無に基づいて、モーター制御における2つの主要なフレームワークにおいて、標準的な出発点を反映している。
本研究では,2つのナビゲーションタスクにおける行動認識エージェントと行動認識エージェントのパフォーマンスを比較する。
関連論文リスト
- SAND: Boosting LLM Agents with Self-Taught Action Deliberation [53.732649189709285]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - Model Editing as a Double-Edged Sword: Steering Agent Ethical Behavior Toward Beneficence or Harm [57.00627691433355]
我々は、モデル編集タスクとしてエージェントの行動ステアリングをフレーム化し、振舞い編集という。
心理学的道徳理論に基づくベンチマークであるBehaviorBenchを紹介する。
行動編集は倫理的・好意的な行動を促進するためにも、逆に有害な行動や悪意のある行動を引き起こすためにも利用できることを実証する。
論文 参考訳(メタデータ) (2025-06-25T16:51:51Z) - CAMMARL: Conformal Action Modeling in Multi Agent Reinforcement Learning [5.865719902445064]
本稿では,新しいマルチエージェント強化学習アルゴリズムCAMMARLを提案する。
それは、異なる状況における他のエージェントのアクションを、自信集合の形でモデル化することを含む。
本稿では,CAMMARLが共形予測セットをモデル化することにより,MARLにおける自律エージェントの能力を高めることを示す。
論文 参考訳(メタデータ) (2023-06-19T19:03:53Z) - Moving Forward by Moving Backward: Embedding Action Impact over Action
Semantics [57.671493865825255]
本稿では,潜伏埋め込みを用いた飛行行動の影響をモデル化する。
これらの潜在アクション埋め込みと、トランスフォーマーベースのポリシーヘッドを組み合わせることで、アクション適応ポリシーを設計する。
当社のAAPは, 対面時, 推論時, 動作不足時, 以前は見えなかった摂動行動空間においても, 高い性能を示した。
論文 参考訳(メタデータ) (2023-04-24T17:35:47Z) - Self-directed Learning of Action Models using Exploratory Planning [6.796748304066826]
専門家の痕跡や目標のない行動条件や効果を学習できる新しい探索計画エージェントについて述べる。
この研究の貢献には、Lifted Linked Clausesと呼ばれるコンテキストに対する新しい表現、これらの節を使った新しい探索行動選択アプローチ、探索に焦点を当てたビデオゲームのシナリオにおける経験的評価が含まれる。
論文 参考訳(メタデータ) (2022-03-07T15:57:10Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Domain-independent generation and classification of behavior traces [18.086782548507855]
CABBOT(英語: CABBOT)は、エージェントが行動を観察している種類の計画エージェントのオンライン分類を行うことができる学習技術である。
我々は、有望な結果をもたらすいくつかの(金融と非金融の両方)領域で実験を行う。
論文 参考訳(メタデータ) (2020-11-03T16:58:54Z) - What can I do here? A Theory of Affordances in Reinforcement Learning [65.70524105802156]
我々はマルコフ決定過程の学習と計画を行うエージェントのための余裕の理論を開発する。
このケースでは、任意の状況で利用可能なアクションの数を減らすことで、アフォーダンスが二重の役割を担います。
本稿では,よりシンプルで一般化された遷移モデルを推定するために,余裕を学習し,それを利用するアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-26T16:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。