論文の概要: Can Offline Reinforcement Learning Help Natural Language Understanding?
- arxiv url: http://arxiv.org/abs/2212.03864v1
- Date: Thu, 15 Sep 2022 02:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 11:59:01.370813
- Title: Can Offline Reinforcement Learning Help Natural Language Understanding?
- Title(参考訳): オフライン強化学習は自然言語理解に役立つか?
- Authors: Ziqi Zhang, Yile Wang, Yue Zhang and Donglin Wang
- Abstract要約: オフライン強化学習(RL)と言語モデリング(LM)の関連性について検討する。
RLとLMは、局所的および長期的依存に依存する現在の状態と以前の状態に基づいて、次の状態を予測するのに類似している。
実験結果から, RL事前学習モデルでは, LM学習目標を用いたモデルと比較すると, 性能が良好であることが示唆された。
- 参考スコア(独自算出の注目度): 31.788133426611587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training has been a useful method for learning implicit transferable
knowledge and it shows the benefit of offering complementary features across
different modalities. Recent work mainly focuses on the modalities such as
image and text, for example, studies show that visual features learned from
images can help visual-grounded language understanding. In this paper, we
consider investigating the potential connection between offline reinforcement
learning (RL) and language modeling (LM). Intuitively, RL and LM are similar in
predicting the next states based on the current and previous states, which rely
on both local and long-range dependency across states. To validate such an
assumption, we pre-trained different offline RL tasks using Transformer and
then evaluate these models on various language-related tasks. Experimental
results show that our RL pre-trained models can give close performance compared
with the models using the LM training objective, showing that there exist
common useful features across these two modalities. To further explore the
potential relationship, we investigate some factors such as Markov property and
the sequential nature of RL trajectory.
- Abstract(参考訳): 事前学習は暗黙的な伝達可能な知識を学ぶための有用な方法であり、様々なモダリティに相補的な特徴を提供することの利点を示している。
最近の研究は主に画像やテキストなどのモダリティに焦点を当てており、画像から学習した視覚的特徴が視覚的な言語理解に役立つことを示している。
本稿では,オフライン強化学習(RL)と言語モデリング(LM)との関係について検討する。
直感的には、RLとLMは、状態間の局所的および長距離的依存に依存する現在の状態と以前の状態に基づいて次の状態を予測するのに類似している。
このような仮定を検証するために,Transformer を用いて様々なオフライン RL タスクを事前学習し,それらのモデルを様々な言語関連タスクで評価した。
実験の結果, RL事前学習モデルでは, LM学習目標を用いたモデルと比較して, 性能が良く, それらの2つのモードに共通する有用な特徴があることがわかった。
潜在的な関係をさらに探求するため,マルコフ特性やRL軌道の逐次的性質などの要因について検討する。
関連論文リスト
- MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared
Semantic Spaces [4.27038429382431]
我々は、オフライン強化学習をマルチモーダル言語モデルと事前学習言語モデルを統合することで教師付き学習タスクに変換する。
提案手法では,画像から得られた状態情報と,テキストから得られた行動関連データを取り入れた。
提案手法は, Atari と OpenAI Gym の環境評価により, 現在のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-02-20T09:15:50Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Offline RL for Natural Language Generation with Implicit Language Q
Learning [87.76695816348027]
ユーザ指定タスクの完了に関して、大きな言語モデルは矛盾する可能性がある。
本稿では,RLのフレキシブル・ユーティリティ・フレームワークと教師あり学習能力を組み合わせた新しいRL手法を提案する。
ILQLの実証的な検証に加えて、オフラインRLが自然言語生成設定で有用となるような、詳細な経験的分析状況も提示する。
論文 参考訳(メタデータ) (2022-06-05T18:38:42Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。