Fugu-MT 論文翻訳(概要): Modelling Agent Policies with Interpretable Imitation Learning

論文の概要: Modelling Agent Policies with Interpretable Imitation Learning

arxiv url: http://arxiv.org/abs/2006.11309v1
Date: Fri, 19 Jun 2020 18:19:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-19 04:51:31.669455
Title: Modelling Agent Policies with Interpretable Imitation Learning
Title（参考訳）: 解釈可能な模倣学習を伴うモデリングエージェントポリシー
Authors: Tom Bewley, Jonathan Lawry, Arthur Richards
Abstract要約: MDP環境における逆エンジニアリングブラックボックスエージェントポリシーにおける模倣学習のアプローチについて概説する。我々はマルコフ状態から構築された多数の候補特徴空間からエージェントの潜在状態表現を明示的にモデル化し学習する。
参考スコア（独自算出の注目度）: 12.858982225307809
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As we deploy autonomous agents in safety-critical domains, it becomes important to develop an understanding of their internal mechanisms and representations. We outline an approach to imitation learning for reverse-engineering black box agent policies in MDP environments, yielding simplified, interpretable models in the form of decision trees. As part of this process, we explicitly model and learn agents' latent state representations by selecting from a large space of candidate features constructed from the Markov state. We present initial promising results from an implementation in a multi-agent traffic environment.
Abstract（参考訳）: 自律的なエージェントを安全クリティカルなドメインに展開するにつれて、内部メカニズムや表現を理解することが重要になります。本稿では,mdp環境におけるブラックボックスエージェントポリシーのリバースエンジニアリングのための模倣学習のアプローチについて概説する。このプロセスの一部として,マルコフ状態から構築した候補特徴の広い空間から選択することにより,エージェントの潜在状態表現を明示的にモデル化し学習する。我々は,マルチエージェントの交通環境における実装からの最初の有望な結果を示す。

関連論文リスト

A Survey on Agentic Multimodal Large Language Models [84.18778056010629]
エージェントマルチモーダル大言語モデル(Agentic MLLMs)に関する総合的な調査を行う。我々は,エージェントMLLMの新たなパラダイムを探求し,その概念的基盤を明確にし,従来のMLLMエージェントとの特徴を区別する。コミュニティのためのこの分野の研究をさらに加速するため、エージェントMLLMを開発するためのオープンソースのトレーニングフレームワーク、トレーニングおよび評価データセットをコンパイルする。
論文参考訳（メタデータ） (2025-10-13T04:07:01Z)
The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文参考訳（メタデータ） (2025-09-02T17:46:26Z)
A Comprehensive Survey of Self-Evolving AI Agents: A New Paradigm Bridging Foundation Models and Lifelong Agentic Systems [53.37728204835912]
既存のAIシステムは、デプロイ後も静的な手作業による構成に依存している。近年,インタラクションデータと環境フィードバックに基づいてエージェントシステムを自動拡張するエージェント進化手法が研究されている。この調査は、自己進化型AIエージェントの体系的な理解を研究者や実践者に提供することを目的としている。
論文参考訳（メタデータ） (2025-08-10T16:07:32Z)
TransAM: Transformer-Based Agent Modeling for Multi-Agent Systems via Local Trajectory Encoding [2.08099858257632]
局所軌跡を埋め込み空間にエンコードする新しいトランスフォーマーモデルである textttTransAM を提案する。協調型,競争型,混合型マルチエージェント環境における提案手法の性能評価を行った。
論文参考訳（メタデータ） (2025-08-04T18:50:37Z)
Improving Controller Generalization with Dimensionless Markov Decision Processes [6.047438841182958]
本研究では,世界モデルと政策の両方が無次元の状態行動空間で訓練されるような一般化を促進するためのモデルベースアプローチを提案する。本研究では, 単一環境下で訓練されたポリシーが, コンテキスト分布の変化に対して堅牢であるような, 動作型振り子とカルポールシステムに対する本手法の適用性を実証する。
論文参考訳（メタデータ） (2025-04-14T09:08:53Z)
Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文参考訳（メタデータ） (2025-03-27T12:50:17Z)
R-AIF: Solving Sparse-Reward Robotic Tasks from Pixels with Active Inference and World Models [50.19174067263255]
我々は、エージェントがスパース・リワード、継続的なアクション、ゴールベースのロボット制御POMDP環境においてエクササイズするのを助けるために、事前の選好学習手法と自己修正スケジュールを導入する。我々のエージェントは、累積報酬、相対安定性、成功率の観点から、最先端モデルよりも優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-09-21T18:32:44Z)
Process Modeling With Large Language Models [42.0652924091318]
本稿では,大規模言語モデル(LLM)のプロセスモデリングへの統合について検討する。プロセスモデルの自動生成と反復的改善にLLMを利用するフレームワークを提案する。予備的な結果は、プロセスモデリングタスクを合理化するフレームワークの能力を示している。
論文参考訳（メタデータ） (2024-03-12T11:27:47Z)
Learning Transferable Conceptual Prototypes for Interpretable Unsupervised Domain Adaptation [79.22678026708134]
本稿では,Transferable Prototype Learning (TCPL) という,本質的に解釈可能な手法を提案する。この目的を達成するために、ソースドメインからターゲットドメインにカテゴリの基本概念を転送する階層的なプロトタイプモジュールを設計し、基礎となる推論プロセスを説明するためにドメイン共有プロトタイプを学習する。総合的な実験により,提案手法は有効かつ直感的な説明を提供するだけでなく,従来の最先端技術よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-12T06:36:41Z)
Guiding the PLMs with Semantic Anchors as Intermediate Supervision: Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2022-10-04T07:27:29Z)
Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文参考訳（メタデータ） (2022-03-24T17:48:58Z)
Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文参考訳（メタデータ） (2021-07-10T03:49:41Z)
Feature-Based Interpretable Reinforcement Learning based on State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。強化学習におけるリスクに関する局所的な説明方法を提案する。
論文参考訳（メタデータ） (2021-05-14T23:43:11Z)
Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文参考訳（メタデータ） (2021-01-14T22:21:25Z)
Agent Modelling under Partial Observability for Deep Reinforcement Learning [12.903487594031276]
エージェントモデリングの既存の方法は、実行中にローカルな観察とモデル化されたエージェントの選択されたアクションの知識を仮定する。制御されたエージェントの局所的な観察に基づいて,モデル化されたエージェントの表現を抽出することを学ぶ。これらの表現は、深い強化学習を通じて訓練された制御エージェントの決定ポリシーを強化するために使用される。
論文参考訳（メタデータ） (2020-06-16T18:43:42Z)
Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文参考訳（メタデータ） (2020-01-04T17:31:53Z)
Asking the Right Questions: Learning Interpretable Action Models Through Query Answering [33.08099403894141]
本稿では,ブラックボックス型自律エージェントの解釈可能なリレーショナルモデルを設計・動作可能な新しいアプローチを開発する。我々の主な貢献は、エージェントとの最小クエリインタフェースを用いてそのようなモデルを推定するための新しいパラダイムと、エージェントの内部モデルを推定するための尋問ポリシーを生成する階層的なクエリアルゴリズムである。
論文参考訳（メタデータ） (2019-12-29T09:05:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。