Fugu-MT 論文翻訳(概要): Symbolic Explanation of Affinity-Based Reinforcement Learning Agents with Markov Models

論文の概要: Symbolic Explanation of Affinity-Based Reinforcement Learning Agents with Markov Models

arxiv url: http://arxiv.org/abs/2208.12627v1
Date: Fri, 26 Aug 2022 12:41:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-29 12:30:13.592573
Title: Symbolic Explanation of Affinity-Based Reinforcement Learning Agents with Markov Models
Title（参考訳）: マルコフモデルを用いた親和性に基づく強化学習エージェントの記号的説明
Authors: Charl Maree and Christian W. Omlin
Abstract要約: 我々は,学習戦略のグローバルな内在的親和性を主張する政策正則化手法を開発した。これらの親和性は、政策の振る舞いを推論する手段を提供するので、本質的に解釈可能である。本手法は,個人が投資戦略を定めているパーソナライズされた繁栄管理において実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The proliferation of artificial intelligence is increasingly dependent on model understanding. Understanding demands both an interpretation - a human reasoning about a model's behavior - and an explanation - a symbolic representation of the functioning of the model. Notwithstanding the imperative of transparency for safety, trust, and acceptance, the opacity of state-of-the-art reinforcement learning algorithms conceals the rudiments of their learned strategies. We have developed a policy regularization method that asserts the global intrinsic affinities of learned strategies. These affinities provide a means of reasoning about a policy's behavior, thus making it inherently interpretable. We have demonstrated our method in personalized prosperity management where individuals' spending behavior in time dictate their investment strategies, i.e. distinct spending personalities may have dissimilar associations with different investment classes. We now explain our model by reproducing the underlying prototypical policies with discretized Markov models. These global surrogates are symbolic representations of the prototypical policies.
Abstract（参考訳）: 人工知能の増殖は、ますますモデル理解に依存している。モデルの振る舞いに関する人間の推論である解釈と、モデルの機能の象徴的な表現である説明の両方を要求する。安全、信頼、受容のための透明性の必須性にもかかわらず、最先端の強化学習アルゴリズムの不透明さは、彼らの学習戦略の素性を隠す。我々は,学習戦略のグローバルな本質的親和性を主張する政策規則化手法を開発した。これらの親和性は、政策の振る舞いを推論する手段を提供し、本質的に解釈可能である。我々は、個人が投資戦略を定めているパーソナライズされた繁栄管理において、個別の支出個人が異なる投資クラスと異なる関係を持つ可能性があることを実証した。我々は, 離散マルコフモデルを用いて, 基礎となる原型的ポリシーを再現することで, モデルを説明する。これらのグローバルサロゲートは原型的な政策の象徴的表現である。

関連論文リスト

LLMs as Strategic Agents: Beliefs, Best Response Behavior, and Emergent Heuristics [0.0]
大規模言語モデル(LLM)は、他のエージェントの振る舞いを推論する必要のあるドメインにますます適用されています。現状のフロンティアモデルでは, 目的的推論記憶における信念コヒーレントなベストレスポンス行動を示す。複雑さが増大する中で、明示的な再帰は、安定した、モデル固有の、既知の人間のバイアスとは異なる選択規則を内部的に生成する手段を与える。
論文参考訳（メタデータ） (2025-10-12T21:40:29Z)
Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文参考訳（メタデータ） (2025-07-08T11:45:51Z)
The CoT Encyclopedia: Analyzing, Predicting, and Controlling how a Reasoning Model will Think [81.38614558541772]
本稿では,モデル推論の分析とステアリングのためのフレームワークであるCoT Encyclopediaを紹介する。本手法はモデル生成CoTから多種多様な推論基準を自動的に抽出する。このフレームワークは既存の手法よりも解釈可能で包括的分析が可能であることを示す。
論文参考訳（メタデータ） (2025-05-15T11:31:02Z)
A constraints-based approach to fully interpretable neural networks for detecting learner behaviors [0.6138671548064356]
本稿では,ニューラルネットワークに基づく行動検出モデルを構築するための新しいアプローチについて述べる。我々のモデルは、完全に解釈可能であり、つまり、説明のために抽出するパラメータは明確な解釈を持つ。このモデルを用いて,ゲーム・ザ・システム動作の検出,タスクの性能評価を行い,学習パターンを人間の専門家が特定したパターンと比較する。
論文参考訳（メタデータ） (2025-04-10T16:58:11Z)
Machine Unlearning Doesn't Do What You Think: Lessons for Generative AI Policy, Research, and Practice [186.055899073629]
非学習はしばしば、生成AIモデルからターゲット情報の影響を取り除くソリューションとして呼び出される。未学習はまた、モデルが出力中にターゲットとなるタイプの情報を生成するのを防ぐ方法として提案されている。これら2つの目標 - モデルからの情報の標的的除去と、モデル出力からの情報のターゲット的抑制 - は、様々な技術的および現実的な課題を表す。
論文参考訳（メタデータ） (2024-12-09T20:18:43Z)
Exploring the Trade-off Between Model Performance and Explanation Plausibility of Text Classifiers Using Human Rationales [3.242050660144211]
ホック後説明可能性法は、ますます複雑なNLPモデルを理解するための重要なツールである。本稿では,人間の判断を説明するテキストアノテーションをテキスト分類モデルに組み込む手法を提案する。
論文参考訳（メタデータ） (2024-04-03T22:39:33Z)
End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations [15.530907808235945]
構造化状態と象徴的ポリシーを共同学習するための,ニューロシンボリックな枠組みを提案する。我々は、GPT-4に学習ポリシーと意思決定に関するテキスト説明を生成するパイプラインを設計する。我々は,9つのアタリ課題に対するアプローチの有効性を検証するとともに,政策と意思決定に関するGPTによる説明を行う。
論文参考訳（メタデータ） (2024-03-19T05:21:20Z)
A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。自己教師型学習のための生成潜在変数モデルを提案する。対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文参考訳（メタデータ） (2024-02-02T13:31:17Z)
Learning and Calibrating Heterogeneous Bounded Rational Market Behaviour with Multi-Agent Reinforcement Learning [4.40301653518681]
エージェントベースモデル(ABM)は、従来の平衡解析と相容れない様々な実世界の現象をモデル化することを約束している。マルチエージェント強化学習(MARL)の最近の進歩は、合理性の観点からこの問題に対処する方法を提供する。 MARLフレームワーク内で不均一な処理制約を持つエージェントを表現するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-02-01T17:21:45Z)
Discrete, compositional, and symbolic representations through attractor dynamics [51.20712945239422]
我々は,思考の確率的言語(PLoT)に似た認知過程をモデル化するために,アトラクタダイナミクスを記号表現と統合した新しいニューラルシステムモデルを導入する。我々のモデルは、連続表現空間を、事前定義されたプリミティブに頼るのではなく、教師なし学習を通じて、記号系の意味性と構成性の特徴を反映する、記号列に対応する引き付け状態を持つ離散盆地に分割する。このアプローチは、認知操作の複雑な双対性を反映したより包括的なモデルを提供する、AIにおける表現力の証明された神経弁別可能な基質であるニューラルダイナミクスを通じて、シンボル処理とサブシンボル処理の両方を統合する統一的なフレームワークを確立する。
論文参考訳（メタデータ） (2023-10-03T05:40:56Z)
A Novel Neural-symbolic System under Statistical Relational Learning [50.747658038910565]
本稿では,GBPGRと呼ばれる2段階の確率的グラフィカル推論フレームワークを提案する。 GBPGRでは、シンボル推論の結果を用いて、ディープラーニングモデルによる予測を洗練し、修正する。提案手法は高い性能を示し, 帰納的タスクと帰納的タスクの両方において効果的な一般化を示す。
論文参考訳（メタデータ） (2023-09-16T09:15:37Z)
Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文参考訳（メタデータ） (2023-09-02T22:14:26Z)
Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文参考訳（メタデータ） (2023-06-07T13:58:45Z)
Reinforcement Learning Your Way: Agent Characterization through Policy Regularization [0.0]
目的関数の正規化を通じてエージェントのポリシーに特徴的振る舞いを組み込む手法を開発した。本手法は,学習中のエージェントの動作を誘導し,本質的な特徴付けを行う。今後の課題として、個人金融顧客の投資ポートフォリオを、支出個性に基づいて最適化するエージェントを開発することを目的としている。
論文参考訳（メタデータ） (2022-01-21T08:18:38Z)
Deep Reinforcement Learning in a Monetary Model [5.7742249974375985]
動的一般均衡モデルの解法として深部強化学習を提案する。エージェントは深層ニューラルネットワークによって表現され、動的最適化問題の解法を学ぶ。適応学習(adaptive learning)とは対照的に、人工知能の家庭はすべての政策体制においてこのモデルを解決できる。
論文参考訳（メタデータ） (2021-04-19T14:56:44Z)
Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文参考訳（メタデータ） (2020-03-09T15:04:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。