論文の概要: Interactive Visualization for Debugging RL
- arxiv url: http://arxiv.org/abs/2008.07331v2
- Date: Tue, 18 Aug 2020 22:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 16:35:24.467157
- Title: Interactive Visualization for Debugging RL
- Title(参考訳): デバッグRLのためのインタラクティブ可視化
- Authors: Shuby Deshpande, Benjamin Eysenbach, Jeff Schneider
- Abstract要約: 本システムでは,教師あり学習ツールなど,従来のツールから欠落している多くの機能に対処する。
将来的な拡張のためのアイデアとともに、このシステムがどのように使われるかのサンプルワークフローを提供する。
- 参考スコア(独自算出の注目度): 11.6341132172284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visualization tools for supervised learning allow users to interpret,
introspect, and gain an intuition for the successes and failures of their
models. While reinforcement learning practitioners ask many of the same
questions, existing tools are not applicable to the RL setting as these tools
address challenges typically found in the supervised learning regime. In this
work, we design and implement an interactive visualization tool for debugging
and interpreting RL algorithms. Our system addresses many features missing from
previous tools such as (1) tools for supervised learning often are not
interactive; (2) while debugging RL policies researchers use state
representations that are different from those seen by the agent; (3) a
framework designed to make the debugging RL policies more conducive. We provide
an example workflow of how this system could be used, along with ideas for
future extensions.
- Abstract(参考訳): 教師付き学習のための可視化ツールは、ユーザーがモデルの成功と失敗を解釈し、内省し、直観的に得ることができる。
強化学習実践者は、同じ質問の多くを問うが、既存のツールは、教師付き学習体制で一般的に見られる課題に対処するため、RL設定には適用されない。
本研究では,RLアルゴリズムのデバッグと解釈を行うインタラクティブな可視化ツールの設計と実装を行う。
本システムでは,(1)教師付き学習用ツールが対話的でないこと,(2)デバッグRLポリシーがエージェントと異なる状態表現を使用していること,(3)デバッグRLポリシーをより理解しやすいものにするために設計されたフレームワークなど,従来のツールから欠落した多くの機能に対処する。
このシステムの使い方を例示するワークフローと、将来の拡張のアイデアを提供します。
関連論文リスト
- CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [73.08470271514605]
この制限に対処するクローズドループビジュアルアシスタントであるCLOVAを提案する。
推論中、LLMはプログラムを生成し、与えられたタスクを達成するための対応するツールを実行する。
リフレクションフェーズではマルチモーダルなグローバルローカルリフレクション方式を導入し、どのツールを更新する必要があるかを分析する。
学習フェーズは3つのフレキシブルな方法でトレーニングデータをリアルタイムで収集し、ツールを更新するための新しいプロンプトチューニングスキームを導入する。
論文 参考訳(メタデータ) (2023-12-18T03:34:07Z) - Confucius: Iterative Tool Learning from Introspection Feedback by
Easy-to-Difficult Curriculum [42.36892453363961]
本研究では,大規模言語モデル(LLM)を学習し,現実のシナリオで複雑なツールを使用するための新しいツール学習フレームワークを提案する。
まず,多段階の学習手法を提案する。
次に、イントロスペクティブフィードバックからの反復自己インストラクションを提案し、データセットを動的に構築し、複雑なツールを使用する能力を改善する。
論文 参考訳(メタデータ) (2023-08-27T07:53:00Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal
Reasoning [107.81733977430517]
CausalVLR(Causal Visual-Linguistic Reasoning)は、最先端の因果関係の発見と因果推論方法の豊富なセットを含むオープンソースのツールボックスである。
これらのメソッドはNVIDIAコンピューティングシステムの下でPyTorchを実装したツールボックスに含まれている。
論文 参考訳(メタデータ) (2023-06-30T08:17:38Z) - Making Language Models Better Tool Learners with Execution Feedback [36.30542737293863]
ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。
既存のツール学習手法は、ツールを無差別に活用するために大きな言語モデルを誘導する。
ツール実行からのフィードバックを通じてモデルを継続的に学習することを可能にする2段階のエンドツーエンドフレームワークであるTool leaRning wIth exeCution fEedback (TRICE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:37:05Z) - Tool Learning with Foundation Models [114.2581831746077]
基礎モデルの出現により、AIシステムは、人間としてのツールの使用に等しく適応できる可能性がある。
その大きな可能性にもかかわらず、この分野における重要な課題、機会、そして将来の取り組みに関する包括的な理解はいまだに欠けている。
論文 参考訳(メタデータ) (2023-04-17T15:16:10Z) - Agent-Controller Representations: Principled Offline RL with Rich
Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である
本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。
現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文 参考訳(メタデータ) (2022-10-31T22:12:48Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Vizarel: A System to Help Better Understand RL Agents [4.009038499050246]
これらのアイデアのプロトタイプを構築するための最初の試みについて説明する。
我々の設計は、解釈可能な強化学習を実験するためのプラットフォームとしてシステムを構想することによるものである。
論文 参考訳(メタデータ) (2020-07-10T19:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。