Fugu-MT 論文翻訳(概要): Perceiving the World: Question-guided Reinforcement Learning for Text-based Games

論文の概要: Perceiving the World: Question-guided Reinforcement Learning for Text-based Games

arxiv url: http://arxiv.org/abs/2204.09597v2
Date: Thu, 21 Apr 2022 06:18:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-25 00:47:42.549924
Title: Perceiving the World: Question-guided Reinforcement Learning for Text-based Games
Title（参考訳）: 世界を理解する:テキストゲームのための質問誘導強化学習
Authors: Yunqiu Xu, Meng Fang, Ling Chen, Yali Du, Joey Tianyi Zhou and Chengqi Zhang
Abstract要約: 本稿では,環境に関する質問に答えることで,タスクやプーンアクションを自動的に分解する世界認識モジュールを提案する。次に、強化学習から言語学習を分離する2段階学習フレームワークを提案し、サンプル効率をさらに向上させる。
参考スコア（独自算出の注目度）: 64.11746320061965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-based games provide an interactive way to study natural language processing. While deep reinforcement learning has shown effectiveness in developing the game playing agent, the low sample efficiency and the large action space remain to be the two major challenges that hinder the DRL from being applied in the real world. In this paper, we address the challenges by introducing world-perceiving modules, which automatically decompose tasks and prune actions by answering questions about the environment. We then propose a two-phase training framework to decouple language learning from reinforcement learning, which further improves the sample efficiency. The experimental results show that the proposed method significantly improves the performance and sample efficiency. Besides, it shows robustness against compound error and limited pre-training data.
Abstract（参考訳）: テキストベースのゲームは自然言語処理を研究するインタラクティブな方法を提供する。深層強化学習はゲームプレイエージェントの開発において有効性を示しているが、サンプル効率の低さと大きなアクションスペースは、DRLが現実世界で適用されることを妨げる2つの大きな課題である。本稿では,環境に関する質問に答えることで,タスクやプルーアクションを自動的に分解する世界認識モジュールの導入による課題に対処する。次に、強化学習から言語学習を分離する2段階学習フレームワークを提案し、サンプル効率をさらに向上させる。実験の結果,提案手法は性能と試料効率を著しく向上させることがわかった。また,複合誤差に対するロバスト性や事前トレーニングデータの制限も示している。

関連論文リスト

Multi-Modal Self-Supervised Semantic Communication [52.76990720898666]
本稿では,マルチモーダルな自己教師型学習を活用し,タスク非依存の特徴抽出を強化するマルチモーダルセマンティックコミュニケーションシステムを提案する。提案手法は,訓練関連通信オーバーヘッドを最小限に抑えつつ,モダリティの不変性とモダリティ特有の特徴の両方を効果的に捉えている。この結果は、セマンティックコミュニケーションにおけるマルチモーダルな自己教師型学習の利点を浮き彫りにし、より効率的でスケーラブルなエッジ推論システムへの道を開いた。
論文参考訳（メタデータ） (2025-03-18T06:13:02Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文参考訳（メタデータ） (2024-05-06T10:42:28Z)
Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
Few-shot learning for automated content analysis: Efficient coding of arguments and claims in the debate on arms deliveries to Ukraine [0.9576975587953563]
トランスフォーマーニューラルネットワークに基づく事前学習言語モデル(PLM)は、通信科学における自動コンテンツ分析を改善する大きな機会を提供する。これまでの3つの特徴は、NLP研究における英語モデルの優位性、必要な計算資源、微調整 PLM の訓練データ作成に必要な労力など、適用分野における手法の普及を妨げている。我々は、われわれのアプローチを、コミュニケーション科学の現実的なユースケースで試し、主張や議論を自動的に検出し、ドイツによるウクライナへの武器の配達に関する議論におけるスタンスと合わせて検証する。
論文参考訳（メタデータ） (2023-12-28T11:39:08Z)
Self-Convinced Prompting: Few-Shot Question Answering with Repeated Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文参考訳（メタデータ） (2023-10-08T06:36:26Z)
Enabling Language Models to Implicitly Learn Self-Improvement [49.16868302881804]
大規模言語モデル(LLM)は、オープンエンドテキスト生成タスクにおいて顕著な機能を示した。我々は、人間の嗜好データから改善目標を暗黙的に学習するImPlicit Self-ImprovemenT(PIT)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-02T04:29:40Z)
An Exploration of Data Efficiency in Intra-Dataset Task Transfer for Dialog Understanding [65.75873687351553]
本研究は,対話領域における逐次移動学習における目標タスク訓練データ量の影響について検討する。非意図的に、我々のデータでは、タスクトレーニングデータのサイズを目標とする場合、シーケンシャルトランスファーラーニングがトランスファーラーニングなしで同じモデルと比較した場合、最小限の効果が示される。
論文参考訳（メタデータ） (2022-10-21T04:36:46Z)
Sample Efficient Approaches for Idiomaticity Detection [6.481818246474555]
本研究は, 慣用性検出の効率的な手法を探索する。特に,いくつかの分類法であるPET(Pattern Exploit Training)と,文脈埋め込みの効率的な方法であるBERTRAM(BERTRAM)の影響について検討した。実験の結果,PETは英語のパフォーマンスを向上するが,ポルトガル語やガリシア語では効果が低下し,バニラmBERTと同程度の総合的な性能が得られた。
論文参考訳（メタデータ） (2022-05-23T13:46:35Z)
Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis [87.75833205560406]
本研究は,多言語テキスト音声(TTS)システムを学習するための生涯学習手法を提案する。すべての言語からプールされたデータを必要としないため、ストレージと計算の負担が軽減される。
論文参考訳（メタデータ） (2021-10-09T07:00:38Z)
On the interaction between supervision and self-play in emergent communication [82.290338507106]
本研究は,2つのカテゴリの学習信号と,サンプル効率の向上を目標とする学習信号の関係について検討する。人間のデータに基づく教師付き学習による初等訓練エージェントが,自己演奏が会話に優れていることが判明した。
論文参考訳（メタデータ） (2020-02-04T02:35:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。