論文の概要: Learning to Generalize for Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2010.02229v1
- Date: Mon, 5 Oct 2020 18:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:12:18.047644
- Title: Learning to Generalize for Sequential Decision Making
- Title(参考訳): 逐次意思決定のための一般化のための学習
- Authors: Xusen Yin, Ralph Weischedel, Jonathan May
- Abstract要約: 本稿では,教師による模倣学習手法と,強化学習モデルを自然言語理解モデルに変換する方法を紹介する。
モデルがより速く学習し、より一般化できることを示し、模倣学習と改革の両方を活用する。
- 参考スコア(独自算出の注目度): 19.075378799280728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider problems of making sequences of decisions to accomplish tasks,
interacting via the medium of language. These problems are often tackled with
reinforcement learning approaches. We find that these models do not generalize
well when applied to novel task domains. However, the large amount of
computation necessary to adequately train and explore the search space of
sequential decision making, under a reinforcement learning paradigm, precludes
the inclusion of large contextualized language models, which might otherwise
enable the desired generalization ability. We introduce a teacher-student
imitation learning methodology and a means of converting a reinforcement
learning model into a natural language understanding model. Together, these
methodologies enable the introduction of contextualized language models into
the sequential decision making problem space. We show that models can learn
faster and generalize more, leveraging both the imitation learning and the
reformulation. Our models exceed teacher performance on various held-out
decision problems, by up to 7% on in-domain problems and 24% on out-of-domain
problems.
- Abstract(参考訳): 我々は、タスクを遂行するための意思決定の順序付けや、言語媒体を介して対話する問題を考える。
これらの問題は強化学習アプローチによってしばしば取り組まれる。
これらのモデルは、新しいタスク領域に適用しても、うまく一般化しない。
しかし、逐次決定の探索空間を適切に訓練し探索するために必要な大量の計算は、強化学習パラダイムの下では、望まれる一般化能力を実現するような大きな文脈化言語モデルを含めることを妨げる。
本稿では,教師による模倣学習手法と強化学習モデルを自然言語理解モデルに変換する方法を紹介する。
これらの手法により、逐次決定問題空間に文脈化言語モデルを導入することができる。
モデルがより速く学習し、より一般化できることを示し、模倣学習と改革の両方を活用する。
本モデルでは,様々な決定問題において教師のパフォーマンスを上回り,ドメイン内問題では最大7%,ドメイン外問題では24%向上した。
関連論文リスト
- Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。
SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。
得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-02-03T02:31:26Z) - An Overview and Discussion on Using Large Language Models for Implementation Generation of Solutions to Open-Ended Problems [0.0]
大規模言語モデルは、オープンな問題に対する問題解決活動をサポートする新しいメソッドの作成をサポートすることができる。
本報告では、モデルプロンプト、強化学習、検索型生成を含む、大規模言語モデルに関する現在の研究を要約する。
論文 参考訳(メタデータ) (2024-12-31T17:48:33Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Building Decision Making Models Through Language Model Regime [17.61892714225144]
大規模言語モデル(LLM)の一般化機能を活用した意思決定問題に対する新しいアプローチを提案する。
LLMは、様々な言語タスクを一般化し、意思決定モデルをトレーニングするための新しい戦略を刺激し、驚くべき成功を収めた。
広告や検索最適化などのeコマース分野の実験では、LTUアプローチが従来の教師付き学習体制より優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-12T12:04:14Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Learning to Diversify Neural Text Generation via Degenerative Model [39.961572541752005]
本稿では, 2つのモデルをトレーニングすることで, 再生不良を防止する新しい手法を提案する。
まず、望ましくないパターンを増幅するように設計されたモデルをトレーニングします。
次に、第1のモデルが学べないパターンに注目して、第2のモデルの多様性を高めます。
論文 参考訳(メタデータ) (2023-09-22T04:57:10Z) - Foundation Models for Decision Making: Problems, Methods, and
Opportunities [124.79381732197649]
大規模に多様なデータに基づいて事前訓練された基礎モデルは、幅広いビジョンと言語タスクにおいて異常な能力を示してきた。
ファンデーションモデルをトレーニングし、他のエージェントと対話し、長期的な推論を行うための新しいパラダイムが生まれている。
基礎モデルと意思決定の交わりにおける研究は、強力な新しいシステムを作るための大きな約束である。
論文 参考訳(メタデータ) (2023-03-07T18:44:07Z) - Exploring Length Generalization in Large Language Models [46.417433724786854]
短い問題インスタンスから長い問題インスタンスへ外挿する能力は、推論タスクにおける分配外一般化の重要な形態である。
本研究では, モデルスケールによらず, 時間的一般化タスクにおいて, 経時的に微調整されたトランスフォーマが有意な一般化欠陥を示すことを示す。
次に,事前学習された大言語モデルのテキスト内学習能力とスクラッチパッドを組み合わせることにより,長さ一般化の劇的な改善が得られたことを示す。
論文 参考訳(メタデータ) (2022-07-11T14:24:38Z) - Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。
このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。
我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文 参考訳(メタデータ) (2022-06-29T18:54:49Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。