Fugu-MT 論文翻訳(概要): Comparing Reinforcement Learning and Human Learning using the Game of Hidden Rules

論文の概要: Comparing Reinforcement Learning and Human Learning using the Game of Hidden Rules

arxiv url: http://arxiv.org/abs/2306.17766v1
Date: Fri, 30 Jun 2023 16:18:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 11:45:56.454755
Title: Comparing Reinforcement Learning and Human Learning using the Game of Hidden Rules
Title（参考訳）: 隠れルールゲームを用いた強化学習と人間学習の比較
Authors: Eric Pulick, Vladimir Menkov, Yonatan Mintz, Paul Kantor, Vicki Bier
Abstract要約: これらのシステムの設計は、ヒューマンラーニング(HL)と強化ラーニング(RL)の両方のタスク指向の理解に依存している。本稿では,HLとRLに対するタスク構造の影響の厳密な研究を支援するための学習環境を提案する。本研究では,人間とRLアルゴリズムの性能差を示すタスク構造における実例実験を通して,そのような研究のための環境の有用性を実証する。
参考スコア（独自算出の注目度）: 0.41998444721319217
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reliable real-world deployment of reinforcement learning (RL) methods requires a nuanced understanding of their strengths and weaknesses and how they compare to those of humans. Human-machine systems are becoming more prevalent and the design of these systems relies on a task-oriented understanding of both human learning (HL) and RL. Thus, an important line of research is characterizing how the structure of a learning task affects learning performance. While increasingly complex benchmark environments have led to improved RL capabilities, such environments are difficult to use for the dedicated study of task structure. To address this challenge we present a learning environment built to support rigorous study of the impact of task structure on HL and RL. We demonstrate the environment's utility for such study through example experiments in task structure that show performance differences between humans and RL algorithms.
Abstract（参考訳）: 強化学習(rl)メソッドの信頼性の高い現実世界での展開には、その強みと弱みと、それらが人間のものとどのように異なるかを理解する必要がある。ヒューマンマシンシステムはより普及し、これらのシステムの設計はヒューマンラーニング(hl)とrlの両方のタスク指向の理解に依存している。このようにして、学習タスクの構造が学習性能に与える影響を特徴付ける研究が重要となる。ますます複雑なベンチマーク環境がRL機能の改善につながったが、タスク構造の研究にそのような環境を使うのは難しい。この課題に対処するために,HLとRLに対するタスク構造の影響の厳密な研究を支援する学習環境を提案する。本研究では,人間とrlアルゴリズムの性能差を示すタスク構造実験を例示して,環境の有用性を実証する。

関連論文リスト

Discovering Temporal Structure: An Overview of Hierarchical Reinforcement Learning [49.46436458692833]
この研究は、意思決定における根本的な課題の観点から、HRLの利点を特定することを目的としている。次に、オンラインエクスペリエンスからオフラインデータセットまで、HRLの時間構造を検出するメソッドのファミリーをカバーします。最後に、時間構造発見の課題と、そのような取り組みに特に適した領域に焦点を当てる。
論文参考訳（メタデータ） (2025-06-16T22:36:32Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
A Survey On Enhancing Reinforcement Learning in Complex Environments: Insights from Human and LLM Feedback [1.0359008237358598]
本稿では、まず、人間やLSMの補助に焦点をあて、これらの実体が最適な行動の促進と学習の迅速化のためにRLエージェントと協調する方法について検討し、また、大きな観測空間によって特徴づけられる環境の複雑さに対処する研究論文を探索する。
論文参考訳（メタデータ） (2024-11-20T15:52:03Z)
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization [94.31508613367296]
Retrieval-augmented Generation(RAG)は、大規模言語モデル(LLM)を効果的に強化する鍵となる手段である。本稿では,手前のタスクに対して最適な構造型を識別し,元の文書をこの構造化形式に再構成し,その結果に基づいて回答を推測するStructRAGを提案する。実験の結果、StructRAGは最先端のパフォーマンスを実現し、特に挑戦的なシナリオに優れていた。
論文参考訳（メタデータ） (2024-10-11T13:52:44Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
Sample Efficient Myopic Exploration Through Multitask Reinforcement Learning with Diverse Tasks [53.44714413181162]
本稿では, エージェントが十分に多様なタスクセットで訓練された場合, 筋電図探索設計による一般的なポリシー共有アルゴリズムは, サンプル効率がよいことを示す。我々の知る限りでは、これはMTRLの「探索的利益」の初めての理論的実証である。
論文参考訳（メタデータ） (2024-03-03T22:57:44Z)
Improving Reinforcement Learning Efficiency with Auxiliary Tasks in Non-Visual Environments: A Comparison [0.0]
本研究は,低次元非視覚的観察のための唯一の疎結合表現学習法である,我々の知識を最大限に活用して,一般的な補助課題と比較する。その結果, 十分複雑な環境下では, 補助的タスクによる表現学習は, 性能向上にのみ寄与することがわかった。
論文参考訳（メタデータ） (2023-10-06T13:22:26Z)
Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-02-28T13:15:04Z)
Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文参考訳（メタデータ） (2023-02-03T00:11:02Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。 RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文参考訳（メタデータ） (2021-12-17T16:28:06Z)
CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。タスクは、ブロックのセットから3D形状を構築することで構成される。
論文参考訳（メタデータ） (2020-10-08T23:01:13Z)
Human AI interaction loop training: New approach for interactive reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。 RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文参考訳（メタデータ） (2020-03-09T15:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。