論文の概要: Interaction-Grounded Learning with Action-inclusive Feedback
- arxiv url: http://arxiv.org/abs/2206.08364v1
- Date: Thu, 16 Jun 2022 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 13:28:21.503267
- Title: Interaction-Grounded Learning with Action-inclusive Feedback
- Title(参考訳): インタラクション・グラウンド学習とアクション・イングレッシブフィードバック
- Authors: Tengyang Xie, Akanksha Saran, Dylan J. Foster, Lekan Molu, Ida
Momennejad, Nan Jiang, Paul Mineiro, John Langford
- Abstract要約: フィードバックベクトルが任意の方法で符号化されたアクションを含む場合でも、IGLが動作するアルゴリズムと分析を作成する。
提案手法の有効性を実証するために,教師付きデータセットに基づく理論的保証と大規模実験を行う。
- 参考スコア(独自算出の注目度): 46.29513917377202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider the problem setting of Interaction-Grounded Learning (IGL), in which
a learner's goal is to optimally interact with the environment with no explicit
reward to ground its policies. The agent observes a context vector, takes an
action, and receives a feedback vector, using this information to effectively
optimize a policy with respect to a latent reward function. Prior analyzed
approaches fail when the feedback vector contains the action, which
significantly limits IGL's success in many potential scenarios such as
Brain-computer interface (BCI) or Human-computer interface (HCI) applications.
We address this by creating an algorithm and analysis which allows IGL to work
even when the feedback vector contains the action, encoded in any fashion. We
provide theoretical guarantees and large-scale experiments based on supervised
datasets to demonstrate the effectiveness of the new approach.
- Abstract(参考訳): 対話型学習(Interaction-Grounded Learning, IGL)の課題について考察し, 学習者の目的は, 明確な報酬を伴わず, 環境と最適に対話することである。
エージェントは、コンテキストベクトルを観察し、アクションを取り、フィードバックベクトルを受信し、この情報を用いて、潜在報酬関数に関するポリシーを効果的に最適化する。
以前に分析されたアプローチは、フィードバックベクトルがアクションを含むと失敗し、ブレイン・コンピュータ・インタフェース(BCI)やヒューマン・コンピュータ・インタフェース(HCI)といった多くの潜在的なシナリオにおけるIGLの成功を著しく制限する。
フィードバックベクトルが任意の方法で符号化されたアクションを含む場合でも、IGLが動作するアルゴリズムと分析を作成することで、この問題に対処する。
提案手法の有効性を実証するために,教師付きデータセットに基づく理論的保証と大規模実験を行う。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - Interaction-Grounded Learning [24.472306647094253]
そこで我々は,学習者の目的が環境と対話することであり,その政策を最適化するために,根拠や明確な報酬を伴わない「インタラクション・グラウンド・ラーニング」を提案する。
そこで本研究では,ある自然な仮定を前提とした対話型学習環境において,学習者が潜在報酬を発見でき,対話を成功させるための政策を立案できることを示す。
論文 参考訳(メタデータ) (2021-06-09T08:13:29Z) - Learning Object Relation Graph and Tentative Policy for Visual
Navigation [44.247995617796484]
情報的視覚表現とロバストなナビゲーションポリシーを学ぶことは重要である。
本稿では、オブジェクト関係グラフ(ORG)、試行駆動型模倣学習(IL)、メモリ拡張仮ポリシーネットワーク(TPN)の3つの補完手法を提案する。
パス長(SPL)による成功率と成功率の22.8%と23.5%の増加を報告した。
論文 参考訳(メタデータ) (2020-07-21T18:03:05Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。