論文の概要: Looking beyond the next token
- arxiv url: http://arxiv.org/abs/2504.11336v1
- Date: Tue, 15 Apr 2025 16:09:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:12:17.216017
- Title: Looking beyond the next token
- Title(参考訳): 次のトークンの向こうを眺める
- Authors: Abitha Thankaraj, Yiding Jiang, J. Zico Kolter, Yonatan Bisk,
- Abstract要約: トレーニングデータシーケンスの再構成と処理により、モデルが真のデータ生成プロセスをより正確に模倣できるようになる、と我々は主張する。
本手法は, 長期的目標を追加費用なしで自然に生成することを可能にした。
- 参考スコア(独自算出の注目度): 75.00751370502168
- License:
- Abstract: The structure of causal language model training assumes that each token can be accurately predicted from the previous context. This contrasts with humans' natural writing and reasoning process, where goals are typically known before the exact argument or phrasings. While this mismatch has been well studied in the literature, the working assumption has been that architectural changes are needed to address this mismatch. We argue that rearranging and processing the training data sequences can allow models to more accurately imitate the true data-generating process, and does not require any other changes to the architecture or training infrastructure. We demonstrate that this technique, Trelawney, and the inference algorithms derived from it allow us to improve performance on several key benchmarks that span planning, algorithmic reasoning, and story generation tasks. Finally, our method naturally enables the generation of long-term goals at no additional cost. We investigate how using the model's goal-generation capability can further improve planning and reasoning. Additionally, we believe Trelawney could potentially open doors to new capabilities beyond the current language modeling paradigm.
- Abstract(参考訳): 因果言語モデルトレーニングの構造は、それぞれのトークンが以前のコンテキストから正確に予測できることを前提としている。
これは人間の自然な記述や推論のプロセスとは対照的であり、ゴールは通常、正確な議論や言い回しの前に知られている。
このミスマッチは文献でよく研究されているが、作業上の前提は、このミスマッチに対処するためにアーキテクチャの変更が必要であるということである。
トレーニングデータシーケンスの再構成と処理により、モデルが真のデータ生成プロセスをより正確に模倣することができ、アーキテクチャやトレーニングインフラストラクチャに他の変更を加える必要がない、と私たちは主張する。
我々は、この手法、Trelawney、およびそれに由来する推論アルゴリズムによって、計画、アルゴリズム推論、ストーリー生成タスクにまたがるいくつかの主要なベンチマークのパフォーマンスを向上させることを実証した。
最後に,提案手法により,長期的目標を追加コストなしで自然に生成することが可能となる。
モデルの目標生成能力を利用することで、計画と推論をさらに改善する方法について検討する。
さらに、Trelawneyは、現在の言語モデリングパラダイムを超えて、新しい機能への扉を開く可能性があると考えています。
関連論文リスト
- Training Neural Networks with Internal State, Unconstrained
Connectivity, and Discrete Activations [66.53734987585244]
真のインテリジェンスには、内部状態を管理するマシンラーニングモデルが必要だ。
このようなモデルのトレーニングに最も効果的なアルゴリズムは,まだ発見されていない。
このようなトレーニングアルゴリズムを2進アクティベーションと1つの重みの行列のみを持つアーキテクチャに適用する試みについて述べる。
論文 参考訳(メタデータ) (2023-12-22T01:19:08Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Efficient Sub-structured Knowledge Distillation [52.5931565465661]
定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的にトレーニングできるアプローチを提案する。
教師モデルから学生モデルへの知識の伝達は、出力空間全体ではなく、すべてのサブ構造上の予測を局所的に一致させることで行う。
論文 参考訳(メタデータ) (2022-03-09T15:56:49Z) - Updater-Extractor Architecture for Inductive World State Representations [0.0]
トランスベースのUpdater-Extractorアーキテクチャと任意の長さのシーケンスで動作するトレーニング手順を提案する。
入ってくる情報をその世界状態表現に組み込むようにモデルを明確に訓練します。
実証的には、3つの異なるタスクでモデルのパフォーマンスを調査し、その約束を示しています。
論文 参考訳(メタデータ) (2021-04-12T14:30:11Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - On the comparability of Pre-trained Language Models [0.0]
教師なし表現学習の最近の進歩は、NLPにおける伝達学習の概念を確立することに成功している。
より精巧なアーキテクチャは、コンテキスト情報をよりよく活用しています。
より大規模なコーパスは、自己教師型で大規模言語モデルを事前訓練するためのリソースとして使用される。
並列コンピューティングとクラウドコンピューティングの進歩により、これらのモデルを、以前確立されたモデルよりも短い時間で、同じまたは短い時間で、拡張能力でトレーニングすることが可能になった。
論文 参考訳(メタデータ) (2020-01-03T10:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。