論文の概要: Learning to Plan Long-Term for Language Modeling
- arxiv url: http://arxiv.org/abs/2409.00070v1
- Date: Fri, 23 Aug 2024 21:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-08 15:21:17.477034
- Title: Learning to Plan Long-Term for Language Modeling
- Title(参考訳): 言語モデリングのための長期的学習
- Authors: Florian Mai, Nathan Cornille, Marie-Francine Moens,
- Abstract要約: 今後,多くの文の潜在計画を予測するプランナーを提案する。
複数のプランを一度にサンプリングすることにより、テキスト継続の分布の正確な近似に基づいて言語モデルを条件付けする。
- 参考スコア(独自算出の注目度): 23.042650737356496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models predict the next token in the sequence by considering the past text through a powerful function such as attention. However, language models have no explicit mechanism that allows them to spend computation time for planning long-distance future text, leading to a suboptimal token prediction. In this paper, we propose a planner that predicts a latent plan for many sentences into the future. By sampling multiple plans at once, we condition the language model on an accurate approximation of the distribution of text continuations, which leads to better next token prediction accuracy. In effect, this allows trading computation time for prediction accuracy.
- Abstract(参考訳): 現代の言語モデルは、注意のような強力な機能を通じて過去のテキストを考慮し、シーケンス内の次のトークンを予測する。
しかし、言語モデルには、長期にわたる将来のテキストの計画に計算時間を費やすための明示的なメカニズムがないため、準最適トークン予測に繋がる。
本稿では,多くの文の潜在計画を予測するプランナを提案する。
複数のプランを一度にサンプリングすることにより、テキスト継続の分布の正確な近似に基づいて言語モデルを条件付け、次のトークン予測精度が向上する。
これにより、予測精度の取引計算時間を実現できる。
関連論文リスト
- Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Few-shot Subgoal Planning with Language Models [58.11102061150875]
事前訓練された言語モデルにエンコードされた言語は、細粒度のサブゴール列を推測できることを示す。
サブゴナル・インスペクションを強く仮定する最近の手法とは対照的に,我々の実験では,詳細なサブゴラル・シーケンスを微調整せずに推論できる言語モデルが示されている。
論文 参考訳(メタデータ) (2022-05-28T01:03:30Z) - Uncertainty estimation of pedestrian future trajectory using Bayesian
approximation [137.00426219455116]
動的トラフィックシナリオでは、決定論的予測に基づく計画は信頼できない。
著者らは、決定論的アプローチが捉えられない近似を用いて予測中の不確実性を定量化する。
将来の状態の不確実性に対する降雨重量と長期予測の影響について検討した。
論文 参考訳(メタデータ) (2022-05-04T04:23:38Z) - Trajectory Prediction with Linguistic Representations [27.71805777845141]
本稿では,言語中間表現を用いて軌跡を予測できる新しい軌跡予測モデルを提案する。
モデルは単語ごとの直接監督なしに各単語の意味を学習する。
これは、長い時間間隔で操作と相互作用をキャプチャする軌跡の言語記述を生成する。
論文 参考訳(メタデータ) (2021-10-19T05:22:38Z) - Aligned Contrastive Predictive Coding [10.521845940927163]
対照的予測損失を用いて訓練された自己監督モデルが、ゆっくりと変化する潜在表現を抽出する可能性を研究する。
将来の表現ごとに個別の予測を生成するのではなく、モデルはそれらが整列する次の表現よりも短い一連の予測を出力する。
論文 参考訳(メタデータ) (2021-04-24T13:07:22Z) - Revisiting Hierarchical Approach for Persistent Long-Term Video
Prediction [55.4498466252522]
従来の手法よりも桁違いに長い予測時間を持つビデオ予測の新しい標準を設定しました。
本手法は,まず意味構造列を推定し,その後,映像から映像への変換により,画素に翻訳することにより,将来的なフレームを予測する。
本手法は,自動車運転と人間のダンスに関する3つの課題データに基づいて評価し,非常に長い時間にわたって複雑なシーン構造と動きを生成できることを実証した。
論文 参考訳(メタデータ) (2021-04-14T08:39:38Z) - Adversarial Generative Grammars for Human Activity Prediction [141.43526239537502]
将来予測のための逆生成文法モデルを提案する。
私たちの文法は、データ分散から生産ルールを学習できるように設計されています。
推論中に複数の生産ルールを選択することができると、予測される結果が異なる。
論文 参考訳(メタデータ) (2020-08-11T17:47:53Z) - Measuring Forecasting Skill from Text [15.795144936579627]
我々は、人々が予測と予測スキルを説明するために使用する言語間の関係を探求する。
未来に関する人々の予測に関連付けられたテキスト上で計算される言語指標を多数提示する。
本研究では,言語のみに基づくモデルを用いて,予測スキルを正確に予測できることを実証する。
論文 参考訳(メタデータ) (2020-06-12T19:04:10Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z) - ProphetNet: Predicting Future N-gram for Sequence-to-Sequence
Pre-training [85.35910219651572]
本稿ではProphetNetと呼ばれる新しいシーケンス・ツー・シーケンス事前学習モデルを提案する。
将来的なn-gram予測という,新たな自己教師型目標を導入している。
我々は,CNN/DailyMail,Gigaword,SQuAD 1.1ベンチマークを用いて,抽象的な要約と質問生成タスクの実験を行った。
論文 参考訳(メタデータ) (2020-01-13T05:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。