論文の概要: On the Effects of Fine-tuning Language Models for Text-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2404.10174v1
- Date: Mon, 15 Apr 2024 23:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:41:41.597610
- Title: On the Effects of Fine-tuning Language Models for Text-Based Reinforcement Learning
- Title(参考訳): テキストベース強化学習における微調整言語モデルの効果について
- Authors: Mauricio Gruppi, Soham Dan, Keerthiram Murugesan, Subhajit Chaudhury,
- Abstract要約: テキストベースRLエージェントの効率的な訓練には,意味理解の充実が寄与することを示す。
本稿では,言語モデルの不適切な微調整の結果,意味的変性の発生について述べる。
- 参考スコア(独自算出の注目度): 19.057241328691077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based reinforcement learning involves an agent interacting with a fictional environment using observed text and admissible actions in natural language to complete a task. Previous works have shown that agents can succeed in text-based interactive environments even in the complete absence of semantic understanding or other linguistic capabilities. The success of these agents in playing such games suggests that semantic understanding may not be important for the task. This raises an important question about the benefits of LMs in guiding the agents through the game states. In this work, we show that rich semantic understanding leads to efficient training of text-based RL agents. Moreover, we describe the occurrence of semantic degeneration as a consequence of inappropriate fine-tuning of language models in text-based reinforcement learning (TBRL). Specifically, we describe the shift in the semantic representation of words in the LM, as well as how it affects the performance of the agent in tasks that are semantically similar to the training games. We believe these results may help develop better strategies to fine-tune agents in text-based RL scenarios.
- Abstract(参考訳): テキストベースの強化学習は、観察されたテキストと自然言語の許容可能なアクションを用いて、架空の環境と対話するエージェントがタスクを完了させる。
これまでの研究では、意味理解やその他の言語能力が完全に欠如していても、エージェントがテキストベースの対話環境で成功できることが示されている。
このようなゲームでこれらのエージェントが成功したことは、意味理解がタスクにとって重要でないことを示唆している。
これにより、エージェントをゲーム状態に誘導する際のLMの利点に関する重要な疑問が提起される。
本研究では,リッチな意味理解がテキストベースRLエージェントの効率的な訓練に繋がることを示す。
さらに、テキストベース強化学習(TBRL)における言語モデルの不適切な微調整の結果、意味的変性の発生について述べる。
具体的には、LMにおける単語の意味表現の変化と、それがトレーニングゲームとセマンティックに類似したタスクにおけるエージェントのパフォーマンスに与える影響について述べる。
これらの結果は、テキストベースのRLシナリオにおいて、エージェントを微調整するためのより良い戦略開発に役立つと信じている。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - Inherently Explainable Reinforcement Learning in Natural Language [14.117921448623342]
本稿では,本質的に説明可能な強化学習エージェントの開発に焦点をあてる。
この階層的説明可能な強化学習エージェントは、インタラクティブフィクション、テキストベースのゲーム環境で動作する。
私たちのエージェントは、説明責任を第一級市民として扱うように設計されています。
論文 参考訳(メタデータ) (2021-12-16T14:24:35Z) - Multitasking Inhibits Semantic Drift [46.71462510028727]
潜在言語政策(LLP)における学習のダイナミクスについて検討する。
LLPは長距離強化学習の課題を解くことができる。
これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
論文 参考訳(メタデータ) (2021-04-15T03:42:17Z) - Reading and Acting while Blindfolded: The Need for Semantics in Text
Game Agents [18.743819704859703]
人工エージェントがテキストのセマンティック理解をどのように利用するかは、まだ不明である。
表現空間を正規化し,探索を促す逆ダイナミクスデコーダを提案する。
将来のエージェントの設計における我々の発見の意義を、より強い意味論的理解で議論する。
論文 参考訳(メタデータ) (2021-03-25T01:35:27Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。