論文の概要: 'Explaining RL Decisions with Trajectories': A Reproducibility Study
- arxiv url: http://arxiv.org/abs/2411.07200v1
- Date: Mon, 11 Nov 2024 18:24:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:40.536993
- Title: 'Explaining RL Decisions with Trajectories': A Reproducibility Study
- Title(参考訳): 「軌道によるRL決定の説明」:再現性の検討
- Authors: Karim Abdel Sadek, Matteo Nulli, Joan Velja, Jort Vincenti,
- Abstract要約: 原論文では,エージェントが学習中に遭遇する特定の軌道群に対する帰属決定に基づく,説明可能な強化学習の新たなアプローチを提案する。
本論文の主な主張は、(i)低軌道の訓練が低い初期状態値を誘導する、(ii)クラスタ内の軌道が類似した高レベルパターンを呈する、(iii)遠隔軌道がエージェントの判断に影響を及ぼす、(iv)人間がエージェントの判断に属性された軌道を正しく識別する、というものである。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This work investigates the reproducibility of the paper 'Explaining RL decisions with trajectories'. The original paper introduces a novel approach in explainable reinforcement learning based on the attribution decisions of an agent to specific clusters of trajectories encountered during training. We verify the main claims from the paper, which state that (i) training on less trajectories induces a lower initial state value, (ii) trajectories in a cluster present similar high-level patterns, (iii) distant trajectories influence the decision of an agent, and (iv) humans correctly identify the attributed trajectories to the decision of the agent. We recover the environments used by the authors based on the partial original code they provided for one of the environments (Grid-World), and implemented the remaining from scratch (Seaquest, HalfCheetah, Breakout and Q*Bert). While we confirm that (i), (ii), and (iii) partially hold, we extend on the largely qualitative experiments from the authors by introducing a quantitative metric to further support (iii), and new experiments and visual results for (i). Moreover, we investigate the use of different clustering algorithms and encoder architectures to further support (ii). We could not support (iv), given the limited extent of the original experiments. We conclude that, while some of the claims can be supported, further investigations and experiments could be of interest. We recognise the novelty of the work from the authors and hope that our work paves the way for clearer and more transparent approaches.
- Abstract(参考訳): 本研究は,「軌道によるRL決定を説明する」論文の再現性について考察する。
本論文は,エージェントが学習中に遭遇する特定の軌道群に対する帰属決定に基づく,説明可能な強化学習の新たなアプローチを提案する。
我々はその論文の主な主張を検証し、その主張を述べる。
(i)低軌道での訓練は、低い初期状態値を誘導する。
(ii)クラスタ内の軌道は、同様の高レベルパターンを示す。
三 エージェントの決定に影響を及ぼす遠方軌道
(四)人間は、エージェントの決定に対する属性された軌跡を正しく識別する。
筆者らが環境の1つに提供した部分的オリジナルコード(Grid-World)に基づいて使用した環境を回復し、残りの環境(Seaquest、HalfCheetah、Breakout、Q*Bert)をスクラッチから実装した。
私たちはそれを確認していますが
(i)
(ii)および
三 部分的には、さらなる支援のための定量的計量を導入することにより、著者の概して質的な実験を拡張している。
(iii)新しい実験と視覚的結果
(i)。
さらに,異なるクラスタリングアルゴリズムとエンコーダアーキテクチャのさらなるサポートについて検討する。
(II)。
サポートできませんでした
(4) 実験の限界を考慮に入れた。
我々は、いくつかの主張が支持できる一方で、さらなる調査と実験が興味深い可能性があると結論付けている。
著者たちからこの作品の斬新さを認識し、我々の作品がより明確で透明なアプローチの道を開くことを願っています。
関連論文リスト
- Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Knowledge Transfer across Multiple Principal Component Analysis Studies [8.602833477729899]
本稿では,複数音源成分分析(PCA)研究から有用な情報を抽出する2段階移動学習アルゴリズムを提案する。
最初のステップでは、複数の研究にまたがる共有部分空間情報をGrassmannian barycenterと呼ばれる提案手法で統合する。
第1段階から得られた共有部分空間の推定器を利用して、対象のプライベート部分空間を推定する。
論文 参考訳(メタデータ) (2024-03-12T09:15:12Z) - STEERING: Stein Information Directed Exploration for Model-Based
Reinforcement Learning [111.75423966239092]
遷移モデルの現在の推定値と未知の最適値との間の積分確率距離(IPM)の観点から探索インセンティブを提案する。
KSDに基づく新しいアルゴリズムを開発した。 textbfSTEin information dirtextbfEcted Explor for model-based textbfReinforcement Learntextbfing。
論文 参考訳(メタデータ) (2023-01-28T00:49:28Z) - Back-to-Bones: Rediscovering the Role of Backbones in Domain
Generalization [1.6799377888527687]
ドメイン一般化は、学習外分布に一般化する深層学習モデルの能力を研究する。
近年の研究では、DGの再現可能なベンチマークが提供され、既存のアルゴリズムに対する経験的リスク最小化(ERM)の有効性が指摘されている。
本稿では,その内在的一般化能力を包括的に分析するバックボーンの評価を行う。
論文 参考訳(メタデータ) (2022-09-02T15:30:17Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Abstract, Rationale, Stance: A Joint Model for Scientific Claim
Verification [18.330265729989843]
我々は,3つのタスクのモジュールを,機械読解フレームワークを用いて共同で学習するアプローチをARSJointとして提案する。
ベンチマークデータセットSciFactの実験結果は、我々のアプローチが既存の作業より優れていることを示している。
論文 参考訳(メタデータ) (2021-09-13T10:07:26Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。