論文の概要: Vizarel: A System to Help Better Understand RL Agents
- arxiv url: http://arxiv.org/abs/2007.05577v1
- Date: Fri, 10 Jul 2020 19:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 20:46:48.517085
- Title: Vizarel: A System to Help Better Understand RL Agents
- Title(参考訳): Vizarel:RLエージェントの理解を深めるシステム
- Authors: Shuby Deshpande, Jeff Schneider
- Abstract要約: これらのアイデアのプロトタイプを構築するための最初の試みについて説明する。
我々の設計は、解釈可能な強化学習を実験するためのプラットフォームとしてシステムを構想することによるものである。
- 参考スコア(独自算出の注目度): 4.009038499050246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visualization tools for supervised learning have allowed users to interpret,
introspect, and gain intuition for the successes and failures of their models.
While reinforcement learning practitioners ask many of the same questions,
existing tools are not applicable to the RL setting. In this work, we describe
our initial attempt at constructing a prototype of these ideas, through
identifying possible features that such a system should encapsulate. Our design
is motivated by envisioning the system to be a platform on which to experiment
with interpretable reinforcement learning.
- Abstract(参考訳): 教師あり学習のための視覚化ツールにより、ユーザーはモデルの成功と失敗を解釈し、内省し、直観的に理解することができる。
強化学習実践者は、同じ質問の多くを問うが、既存のツールはRL設定には適用できない。
本稿では,このようなシステムをカプセル化する可能性のある特徴を特定することにより,これらのアイデアのプロトタイプを構築する最初の試みについて述べる。
我々の設計は、解釈可能な強化学習を実験するためのプラットフォームとしてシステムを構想することによるものである。
関連論文リスト
- Game On: Towards Language Models as RL Experimenters [8.131696370980379]
本稿では,一般的な強化学習実験ワークフローの一部を自動化するエージェントアーキテクチャを提案する。
我々は、言語条件のアクター・クリティカルアルゴリズムにスキルのカリキュラムを提供するために、追加の微調整をせずに、標準のジェミニモデルを使用する。
成長するスキルのライブラリを構築し、それらのスキルの訓練の進捗を判断するシステムの能力のさらなる検証も、有望な結果を示している。
論文 参考訳(メタデータ) (2024-09-05T10:38:16Z) - CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [69.59482029810198]
CLOVAは、推論、リフレクション、学習フェーズを含むフレームワーク内で動作するクローズドループビジュアルアシスタントである。
その結果,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-18T03:34:07Z) - Tool Learning with Foundation Models [158.8640687353623]
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。
その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-04-17T15:16:10Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Redefining Counterfactual Explanations for Reinforcement Learning:
Overview, Challenges and Opportunities [2.0341936392563063]
AIのほとんどの説明方法は、開発者とエキスパートユーザーに焦点を当てている。
ブラックボックスモデルの出力が変更されるための入力で何が変更されるのかについて、カウンターファクトな説明がユーザにアドバイスします。
カウンターファクトはユーザフレンドリで、AIシステムから望ましいアウトプットを達成するための実行可能なアドバイスを提供する。
論文 参考訳(メタデータ) (2022-10-21T09:50:53Z) - Learning from Ambiguous Demonstrations with Self-Explanation Guided
Reinforcement Learning [20.263419567168388]
本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。
このような状況を人間がどう扱うかに触発されて、我々は価値ある高レベルな関係性の特徴を認識するために自己説明を使うことを提案する。
我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。
論文 参考訳(メタデータ) (2021-10-11T13:59:48Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Explainability Case Studies [2.2872132127037963]
説明可能性(Explainability)は、AIシステムの設計における重要な倫理概念の1つである。
本稿では, 製品設計者, 開発者, 学生, 教育者に対して, 自社製品に対する総合的な説明可能性戦略を開発するための教育ツールとして機能する, 仮説的AI対応製品に関する一連のケーススタディを提案する。
論文 参考訳(メタデータ) (2020-09-01T05:54:15Z) - Explainable Recommender Systems via Resolving Learning Representations [57.24565012731325]
説明はユーザー体験を改善し、システムの欠陥を発見するのに役立つ。
本稿では,表現学習プロセスの透明性を向上させることによって,説明可能な新しい推薦モデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:30:48Z) - Interactive Visualization for Debugging RL [11.6341132172284]
本システムでは,教師あり学習ツールなど,従来のツールから欠落している多くの機能に対処する。
将来的な拡張のためのアイデアとともに、このシステムがどのように使われるかのサンプルワークフローを提供する。
論文 参考訳(メタデータ) (2020-08-14T15:28:18Z) - Self-supervised Learning from a Multi-view Perspective [121.63655399591681]
自己教師型表現はタスク関連情報を抽出し,タスク関連情報を破棄することができることを示す。
我々の理論的枠組みは、自己教師型学習目標設計のより広い空間への道を開くものである。
論文 参考訳(メタデータ) (2020-06-10T00:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。