論文の概要: Interactive Visualization for Debugging RL
- arxiv url: http://arxiv.org/abs/2008.07331v2
- Date: Tue, 18 Aug 2020 22:27:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 16:35:24.467157
- Title: Interactive Visualization for Debugging RL
- Title(参考訳): デバッグRLのためのインタラクティブ可視化
- Authors: Shuby Deshpande, Benjamin Eysenbach, Jeff Schneider
- Abstract要約: 本システムでは,教師あり学習ツールなど,従来のツールから欠落している多くの機能に対処する。
将来的な拡張のためのアイデアとともに、このシステムがどのように使われるかのサンプルワークフローを提供する。
- 参考スコア(独自算出の注目度): 11.6341132172284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visualization tools for supervised learning allow users to interpret,
introspect, and gain an intuition for the successes and failures of their
models. While reinforcement learning practitioners ask many of the same
questions, existing tools are not applicable to the RL setting as these tools
address challenges typically found in the supervised learning regime. In this
work, we design and implement an interactive visualization tool for debugging
and interpreting RL algorithms. Our system addresses many features missing from
previous tools such as (1) tools for supervised learning often are not
interactive; (2) while debugging RL policies researchers use state
representations that are different from those seen by the agent; (3) a
framework designed to make the debugging RL policies more conducive. We provide
an example workflow of how this system could be used, along with ideas for
future extensions.
- Abstract(参考訳): 教師付き学習のための可視化ツールは、ユーザーがモデルの成功と失敗を解釈し、内省し、直観的に得ることができる。
強化学習実践者は、同じ質問の多くを問うが、既存のツールは、教師付き学習体制で一般的に見られる課題に対処するため、RL設定には適用されない。
本研究では,RLアルゴリズムのデバッグと解釈を行うインタラクティブな可視化ツールの設計と実装を行う。
本システムでは,(1)教師付き学習用ツールが対話的でないこと,(2)デバッグRLポリシーがエージェントと異なる状態表現を使用していること,(3)デバッグRLポリシーをより理解しやすいものにするために設計されたフレームワークなど,従来のツールから欠落した多くの機能に対処する。
このシステムの使い方を例示するワークフローと、将来の拡張のアイデアを提供します。
関連論文リスト
- Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。
実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - RLInspect: An Interactive Visual Approach to Assess Reinforcement Learning Algorithm [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の急速に成長する分野である。
RLモデルを評価することは困難であり、その振る舞いを理解するのが難しくなる。
我々はインタラクティブな視覚分析ツールであるRLInspectを開発した。
RLモデルのさまざまなコンポーネント - 状態、アクション、エージェントアーキテクチャ、報酬 - を考慮しており、RLトレーニングのより包括的なビューを提供する。
論文 参考訳(メタデータ) (2024-11-13T07:24:14Z) - Enhancing Tool Retrieval with Iterative Feedback from Large Language Models [9.588592185027455]
大規模言語モデル(LLM)は、コンテキスト内学習や微調整を通じて、ある程度のツールを効果的に扱うことができる。
現実のシナリオでは、ツールの数は一般的に広範囲で不規則に更新され、専用のツール検索コンポーネントの必要性を強調している。
本稿では,大規模言語モデルからの反復的なフィードバックでツール検索を強化することを提案する。
論文 参考訳(メタデータ) (2024-06-25T11:12:01Z) - Tool Learning with Large Language Models: A Survey [60.733557487886635]
大規模言語モデル(LLM)を用いたツール学習は,高度に複雑な問題に対処するLLMの能力を強化するための,有望なパラダイムとして登場した。
この分野での注目と急速な進歩にもかかわらず、現存する文献は断片化され、体系的な組織が欠如している。
論文 参考訳(メタデータ) (2024-05-28T08:01:26Z) - Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。
次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。
包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update [69.59482029810198]
CLOVAは、推論、リフレクション、学習フェーズを含むフレームワーク内で動作するクローズドループビジュアルアシスタントである。
その結果,CLOVAは既存のツール利用手法を5%,知識タグ付けでは10%,画像編集では20%,視覚的質問応答や複数画像推論では5%に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-18T03:34:07Z) - Making Language Models Better Tool Learners with Execution Feedback [36.30542737293863]
ツールは、人間が環境を理解し、形を変えることができる重要なインターフェースとして機能する。
既存のツール学習手法は、ツールを無差別に活用するために大きな言語モデルを誘導する。
ツール実行からのフィードバックを通じてモデルを継続的に学習することを可能にする2段階のエンドツーエンドフレームワークであるTool leaRning wIth exeCution fEedback (TRICE)を提案する。
論文 参考訳(メタデータ) (2023-05-22T14:37:05Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Vizarel: A System to Help Better Understand RL Agents [4.009038499050246]
これらのアイデアのプロトタイプを構築するための最初の試みについて説明する。
我々の設計は、解釈可能な強化学習を実験するためのプラットフォームとしてシステムを構想することによるものである。
論文 参考訳(メタデータ) (2020-07-10T19:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。