Fugu-MT 論文翻訳(概要): Learning from Ambiguous Demonstrations with Self-Explanation Guided Reinforcement Learning

論文の概要: Learning from Ambiguous Demonstrations with Self-Explanation Guided Reinforcement Learning

arxiv url: http://arxiv.org/abs/2110.05286v1
Date: Mon, 11 Oct 2021 13:59:48 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-12 18:55:06.682557
Title: Learning from Ambiguous Demonstrations with Self-Explanation Guided Reinforcement Learning
Title（参考訳）: 自己説明型強化学習による曖昧なデモンストレーションからの学習
Authors: Yantian Zha, Lin Guan, and Subbarao Kambhampati
Abstract要約: 本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。このような状況を人間がどう扱うかに触発されて、我々は価値ある高レベルな関係性の特徴を認識するために自己説明を使うことを提案する。我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。
参考スコア（独自算出の注目度）: 15.14622865987733
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Our work aims at efficiently leveraging ambiguous demonstrations for the training of a reinforcement learning (RL) agent. An ambiguous demonstration can usually be interpreted in multiple ways, which severely hinders the RL-Agent from learning stably and efficiently. Since an optimal demonstration may also suffer from being ambiguous, previous works that combine RL and learning from demonstration (RLfD works) may not work well. Inspired by how humans handle such situations, we propose to use self-explanation (an agent generates explanations for itself) to recognize valuable high-level relational features as an interpretation of why a successful trajectory is successful. This way, the agent can provide some guidance for its RL learning. Our main contribution is to propose the Self-Explanation for RL from Demonstrations (SERLfD) framework, which can overcome the limitations of traditional RLfD works. Our experimental results show that an RLfD model can be improved by using our SERLfD framework in terms of training stability and performance.
Abstract（参考訳）: 本研究の目的は、強化学習(RL)エージェントの訓練にあいまいなデモンストレーションを効果的に活用することである。曖昧なデモンストレーションは通常、複数の方法で解釈され、RL-Agentが安定かつ効率的に学習することを妨げる。最適なデモンストレーションも曖昧である可能性があるため、以前のRLと実演からの学習(RLfDの作業)を組み合わせた作業はうまくいかなかった。このような状況に触発されて、我々は、成功軌道が成功した理由の解釈として、価値の高い高次関係特徴を認識するために自己説明(エージェント自身による説明)を使うことを提案する。これにより、エージェントはrl学習のためのガイダンスを提供することができる。我々の主な貢献は、従来のRLfD作品の限界を克服できるDemonstrations (SERLfD)フレームワークからの自己説明(Self-Explanation for RL)を提案することである。実験結果から,SERLfDフレームワークを用いてRLfDモデルをトレーニング安定性と性能の観点から改善できることが示唆された。

関連論文リスト

Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文参考訳（メタデータ） (2025-11-02T16:33:45Z)
HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文参考訳（メタデータ） (2025-10-10T13:42:03Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
Behavior Injection: Preparing Language Models for Reinforcement Learning [45.744838898763554]
我々はRL目標のステップごとの影響を分析し、効果的な後学習のための2つの重要な条件を同定する。 RLに先立って適用されたタスクに依存しないデータ拡張方式である振舞い注入を提案する。提案手法は,複数のベースモデルを用いた2つの推論ベンチマークで評価する。
論文参考訳（メタデータ） (2025-05-25T00:54:50Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
RLInspect: An Interactive Visual Approach to Assess Reinforcement Learning Algorithm [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の急速に成長する分野である。 RLモデルを評価することは困難であり、その振る舞いを理解するのが難しくなる。我々はインタラクティブな視覚分析ツールであるRLInspectを開発した。 RLモデルのさまざまなコンポーネント - 状態、アクション、エージェントアーキテクチャ、報酬 - を考慮しており、RLトレーニングのより包括的なビューを提供する。
論文参考訳（メタデータ） (2024-11-13T07:24:14Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
RACCER: Towards Reachable and Certain Counterfactual Explanations for Reinforcement Learning [2.0341936392563063]
本稿では,RLエージェントの動作に対する反実的説明を生成するための,RACCERを提案する。木探索を用いて、定義された特性に基づいて最も適切なカウンターファクトを見つける。我々はRACCERを2つのタスクで評価し、また、RL固有の対策がエージェントの行動をよりよく理解するのに役立つことを示す。
論文参考訳（メタデータ） (2023-03-08T09:47:00Z)
D-Shape: Demonstration-Shaped Reinforcement Learning via Goal Conditioning [48.57484755946714]
D-Shapeは模倣学習(IL)と強化学習(RL)を組み合わせた新しい手法である本稿では,ILとRLを組み合わせた新たな手法であるD-Shapeを紹介する。スパース・リワード・グリッドワールド領域におけるD-Shapeの有効性を実験的に検証し、サンプル効率の観点からRLよりも改善し、最適ポリシーに一貫した収束を示す。
論文参考訳（メタデータ） (2022-10-26T02:28:32Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Demonstration-Guided Reinforcement Learning with Learned Skills [23.376115889936628]
実証誘導強化学習(RL)は複雑な行動を学ぶ上で有望なアプローチである。本研究では、この共有サブタスク構造を利用して、実演誘導RLの効率を向上させることを目的とする。本稿では,提案する実演を効率的に活用する実演誘導RLアルゴリズムであるSkiLD(Skill-based Learning with Demonstrations)を提案する。
論文参考訳（メタデータ） (2021-07-21T17:59:34Z)
Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。 6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文参考訳（メタデータ） (2021-06-15T11:16:49Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
GAN-Based Interactive Reinforcement Learning from Demonstration and Human Evaluative Feedback [6.367592686247906]
本稿では,実演と人的評価フィードバックからganベースインタラクティブ強化学習(gairl)を提案する。提案手法を6つの物理制御タスクで検証した。
論文参考訳（メタデータ） (2021-04-14T02:58:51Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
ACNMP: Skill Transfer and Task Extrapolation through Learning from Demonstration and Reinforcement Learning via Representation Sharing [5.06461227260756]
ACNMPは、異なる形態を持つロボット間のスキル伝達を実装するために使用できる。本稿では,実際のロボット実験を通して,ACNMPの現実的適合性を示す。
論文参考訳（メタデータ） (2020-03-25T11:28:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。