論文の概要: Interaction-Grounded Learning with Action-inclusive Feedback
- arxiv url: http://arxiv.org/abs/2206.08364v1
- Date: Thu, 16 Jun 2022 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 13:28:21.503267
- Title: Interaction-Grounded Learning with Action-inclusive Feedback
- Title(参考訳): インタラクション・グラウンド学習とアクション・イングレッシブフィードバック
- Authors: Tengyang Xie, Akanksha Saran, Dylan J. Foster, Lekan Molu, Ida
Momennejad, Nan Jiang, Paul Mineiro, John Langford
- Abstract要約: フィードバックベクトルが任意の方法で符号化されたアクションを含む場合でも、IGLが動作するアルゴリズムと分析を作成する。
提案手法の有効性を実証するために,教師付きデータセットに基づく理論的保証と大規模実験を行う。
- 参考スコア(独自算出の注目度): 46.29513917377202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consider the problem setting of Interaction-Grounded Learning (IGL), in which
a learner's goal is to optimally interact with the environment with no explicit
reward to ground its policies. The agent observes a context vector, takes an
action, and receives a feedback vector, using this information to effectively
optimize a policy with respect to a latent reward function. Prior analyzed
approaches fail when the feedback vector contains the action, which
significantly limits IGL's success in many potential scenarios such as
Brain-computer interface (BCI) or Human-computer interface (HCI) applications.
We address this by creating an algorithm and analysis which allows IGL to work
even when the feedback vector contains the action, encoded in any fashion. We
provide theoretical guarantees and large-scale experiments based on supervised
datasets to demonstrate the effectiveness of the new approach.
- Abstract(参考訳): 対話型学習(Interaction-Grounded Learning, IGL)の課題について考察し, 学習者の目的は, 明確な報酬を伴わず, 環境と最適に対話することである。
エージェントは、コンテキストベクトルを観察し、アクションを取り、フィードバックベクトルを受信し、この情報を用いて、潜在報酬関数に関するポリシーを効果的に最適化する。
以前に分析されたアプローチは、フィードバックベクトルがアクションを含むと失敗し、ブレイン・コンピュータ・インタフェース(BCI)やヒューマン・コンピュータ・インタフェース(HCI)といった多くの潜在的なシナリオにおけるIGLの成功を著しく制限する。
フィードバックベクトルが任意の方法で符号化されたアクションを含む場合でも、IGLが動作するアルゴリズムと分析を作成することで、この問題に対処する。
提案手法の有効性を実証するために,教師付きデータセットに基づく理論的保証と大規模実験を行う。
関連論文リスト
- Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
CoGCLは、離散コードを通じてより強力な協調情報でコントラスト的なビューを構築することで、グラフのコントラスト学習を強化することを目的としている。
ユーザとアイテムの表現を離散コードに定量化するために,マルチレベルベクトル量化器をエンドツーエンドで導入する。
近傍構造に対しては,離散符号を仮想隣人として扱うことにより,仮想隣人拡張を提案する。
意味的関連性については、共有された離散コードと相互作用ターゲットに基づいて類似のユーザ/イテムを識別し、意味的関連性のあるビューを生成する。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - Provably Efficient Interactive-Grounded Learning with Personalized Reward [44.64476717773815]
インタラクティブ・グラウンドド・ラーニング(Interactive-Grounded Learning, IGL)は、学習者が観測不能な報酬を最大化することを目的とした強力なフレームワークである。
我々は、実現可能性の下でサブ線形後悔を伴う最初の証明可能な効率のよいアルゴリズムを提供する。
本稿では,探索-テーマ-露光に基づく2つのアルゴリズムと,逆ギャップ重み付けに基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:21:09Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文 参考訳(メタデータ) (2022-09-05T07:50:54Z) - Interaction-Grounded Learning [24.472306647094253]
そこで我々は,学習者の目的が環境と対話することであり,その政策を最適化するために,根拠や明確な報酬を伴わない「インタラクション・グラウンド・ラーニング」を提案する。
そこで本研究では,ある自然な仮定を前提とした対話型学習環境において,学習者が潜在報酬を発見でき,対話を成功させるための政策を立案できることを示す。
論文 参考訳(メタデータ) (2021-06-09T08:13:29Z) - Mining Implicit Entity Preference from User-Item Interaction Data for
Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。
我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。
利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-03-28T05:47:33Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。