論文の概要: Learning to Generalize for Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2010.02229v1
- Date: Mon, 5 Oct 2020 18:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:12:18.047644
- Title: Learning to Generalize for Sequential Decision Making
- Title(参考訳): 逐次意思決定のための一般化のための学習
- Authors: Xusen Yin, Ralph Weischedel, Jonathan May
- Abstract要約: 本稿では,教師による模倣学習手法と,強化学習モデルを自然言語理解モデルに変換する方法を紹介する。
モデルがより速く学習し、より一般化できることを示し、模倣学習と改革の両方を活用する。
- 参考スコア(独自算出の注目度): 19.075378799280728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider problems of making sequences of decisions to accomplish tasks,
interacting via the medium of language. These problems are often tackled with
reinforcement learning approaches. We find that these models do not generalize
well when applied to novel task domains. However, the large amount of
computation necessary to adequately train and explore the search space of
sequential decision making, under a reinforcement learning paradigm, precludes
the inclusion of large contextualized language models, which might otherwise
enable the desired generalization ability. We introduce a teacher-student
imitation learning methodology and a means of converting a reinforcement
learning model into a natural language understanding model. Together, these
methodologies enable the introduction of contextualized language models into
the sequential decision making problem space. We show that models can learn
faster and generalize more, leveraging both the imitation learning and the
reformulation. Our models exceed teacher performance on various held-out
decision problems, by up to 7% on in-domain problems and 24% on out-of-domain
problems.
- Abstract(参考訳): 我々は、タスクを遂行するための意思決定の順序付けや、言語媒体を介して対話する問題を考える。
これらの問題は強化学習アプローチによってしばしば取り組まれる。
これらのモデルは、新しいタスク領域に適用しても、うまく一般化しない。
しかし、逐次決定の探索空間を適切に訓練し探索するために必要な大量の計算は、強化学習パラダイムの下では、望まれる一般化能力を実現するような大きな文脈化言語モデルを含めることを妨げる。
本稿では,教師による模倣学習手法と強化学習モデルを自然言語理解モデルに変換する方法を紹介する。
これらの手法により、逐次決定問題空間に文脈化言語モデルを導入することができる。
モデルがより速く学習し、より一般化できることを示し、模倣学習と改革の両方を活用する。
本モデルでは,様々な決定問題において教師のパフォーマンスを上回り,ドメイン内問題では最大7%,ドメイン外問題では24%向上した。
関連論文リスト
- BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Building Decision Making Models Through Language Model Regime [17.61892714225144]
大規模言語モデル(LLM)の一般化機能を活用した意思決定問題に対する新しいアプローチを提案する。
LLMは、様々な言語タスクを一般化し、意思決定モデルをトレーニングするための新しい戦略を刺激し、驚くべき成功を収めた。
広告や検索最適化などのeコマース分野の実験では、LTUアプローチが従来の教師付き学習体制より優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-12T12:04:14Z) - Neuro-symbolic Training for Reasoning over Spatial Language [17.901249830817882]
本稿では,推論の論理的ルールを制約として活用できる,ニューロシンボリックな手法による学習言語モデルを提案する。
テキストによる空間的推論という課題に焦点をあてる。
論文 参考訳(メタデータ) (2024-06-19T20:47:36Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Learning to Diversify Neural Text Generation via Degenerative Model [39.961572541752005]
本稿では, 2つのモデルをトレーニングすることで, 再生不良を防止する新しい手法を提案する。
まず、望ましくないパターンを増幅するように設計されたモデルをトレーニングします。
次に、第1のモデルが学べないパターンに注目して、第2のモデルの多様性を高めます。
論文 参考訳(メタデータ) (2023-09-22T04:57:10Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Exploring Length Generalization in Large Language Models [46.417433724786854]
短い問題インスタンスから長い問題インスタンスへ外挿する能力は、推論タスクにおける分配外一般化の重要な形態である。
本研究では, モデルスケールによらず, 時間的一般化タスクにおいて, 経時的に微調整されたトランスフォーマが有意な一般化欠陥を示すことを示す。
次に,事前学習された大言語モデルのテキスト内学習能力とスクラッチパッドを組み合わせることにより,長さ一般化の劇的な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-07-11T14:24:38Z) - Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。
このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。
我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-06-29T18:54:49Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。