論文の概要: An Information Theoretic Approach to Interaction-Grounded Learning
- arxiv url: http://arxiv.org/abs/2401.05015v1
- Date: Wed, 10 Jan 2024 09:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 15:08:13.078200
- Title: An Information Theoretic Approach to Interaction-Grounded Learning
- Title(参考訳): インタラクション学習における情報理論のアプローチ
- Authors: Xiaoyan Hu, Farzan Farnia, Ho-fung Leung
- Abstract要約: IGLに基づくRL問題において条件付き独立仮定を強制するための情報理論手法として、変分情報に基づくIGL(VI-IGL)を提案する。
RL問題における連続確率変数の情報ベース項を推定し、最適化するために、VI-IGLは相互情報の変動表現を利用する。
- 参考スコア(独自算出の注目度): 26.8746655608866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) problems where the learner attempts to infer an
unobserved reward from some feedback variables have been studied in several
recent papers. The setting of Interaction-Grounded Learning (IGL) is an example
of such feedback-based reinforcement learning tasks where the learner optimizes
the return by inferring latent binary rewards from the interaction with the
environment. In the IGL setting, a relevant assumption used in the RL
literature is that the feedback variable $Y$ is conditionally independent of
the context-action $(X,A)$ given the latent reward $R$. In this work, we
propose Variational Information-based IGL (VI-IGL) as an information-theoretic
method to enforce the conditional independence assumption in the IGL-based RL
problem. The VI-IGL framework learns a reward decoder using an
information-based objective based on the conditional mutual information (MI)
between the context-action $(X,A)$ and the feedback variable $Y$ observed from
the environment. To estimate and optimize the information-based terms for the
continuous random variables in the RL problem, VI-IGL leverages the variational
representation of mutual information and results in a min-max optimization
problem. Furthermore, we extend the VI-IGL framework to general $f$-Information
measures in the information theory literature, leading to the generalized
$f$-VI-IGL framework to address the RL problem under the IGL condition.
Finally, we provide the empirical results of applying the VI-IGL method to
several reinforcement learning settings, which indicate an improved performance
in comparison to the previous IGL-based RL algorithm.
- Abstract(参考訳): 学習者がフィードバック変数から観察されていない報酬を推測しようとする強化学習(rl)問題は、最近のいくつかの論文で研究されている。
インタラクション・グラウンド・ラーニング(igl)の設定は、学習者が環境との相互作用から潜在的なバイナリ報酬を推測してリターンを最適化するフィードバックベースの強化学習タスクの例である。
IGL設定において、RL文献で使われる関連する仮定は、フィードバック変数$Y$は、潜在報酬$R$を与えられた文脈作用$(X,A)$と条件的に独立であるということである。
本稿では,iglに基づくrl問題における条件付き独立性仮定を強制するための情報理論的手法として,変分情報ベースigl(vi-igl)を提案する。
VI-IGLフレームワークは、コンテキストアクション$(X,A)$と環境から観測されたフィードバック変数$Y$との間の条件相互情報(MI)に基づいて、情報に基づく目的を用いて報酬復号器を学習する。
RL問題における連続確率変数の情報ベース項を推定・最適化するために、VI-IGLは相互情報の変動表現を活用し、min-max最適化問題をもたらす。
さらに、情報理論文献における一般的な$f$-Information測度にVI-IGLフレームワークを拡張し、IGL条件下でのRL問題に対処するための一般化$f$-VI-IGLフレームワークを実現する。
最後に,VI-IGL法をいくつかの強化学習環境に適用した経験的結果について述べる。
関連論文リスト
- Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - LMGT: Optimizing Exploration-Exploitation Balance in Reinforcement Learning through Language Model Guided Trade-offs [27.014415210732103]
強化学習のための新しいサンプル効率フレームワークである textbfLanguage textbfModel textbfGuided textbfTrade-offs (textbfLMGT) を紹介する。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - IGL-Bench: Establishing the Comprehensive Benchmark for Imbalanced Graph Learning [47.34876616533362]
IGL-Benchは、不均衡グラフ学習のための包括的なベンチマークである。
ノードレベルおよびグラフレベルのタスクにおける有効性、堅牢性、効率性の観点から、最先端のIGLアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2024-06-14T09:30:18Z) - A Theory for Token-Level Harmonization in Retrieval-Augmented Generation [76.75124161306795]
Retrieval-augmented Generation (RAG)は、検索したテキストを利用して大規模言語モデル(LLM)を強化する。
本稿では,RAGの利益と有害性を説明するための理論を提供する。
提案手法は,本理論に基づいて,純粋LLMとRAGの協調生成を実現する実用的手法であるTok-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-03T02:56:14Z) - Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation [128.01050030936028]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Interaction-Grounded Learning with Action-inclusive Feedback [46.29513917377202]
フィードバックベクトルが任意の方法で符号化されたアクションを含む場合でも、IGLが動作するアルゴリズムと分析を作成する。
提案手法の有効性を実証するために,教師付きデータセットに基づく理論的保証と大規模実験を行う。
論文 参考訳(メタデータ) (2022-06-16T17:59:10Z) - Transferred Q-learning [79.79659145328856]
我々は、目標強化学習(RL)タスクのサンプルと、異なるが関連するRLタスクのソースサンプルを用いて、知識伝達を伴うQ$ラーニングについて検討する。
オフラインのソーススタディを用いたバッチとオンラインの$Q$ラーニングのためのトランスファー学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-09T20:08:19Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。