論文の概要: End-to-end Planner Training for Language Modeling
- arxiv url: http://arxiv.org/abs/2410.12492v1
- Date: Wed, 16 Oct 2024 12:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:05.769324
- Title: End-to-end Planner Training for Language Modeling
- Title(参考訳): 言語モデリングのためのエンドツーエンドプランナートレーニング
- Authors: Nathan Cornille, Florian Mai, Jingyuan Sun, Marie-Francine Moens,
- Abstract要約: 言語モデリングを強化するための成功したアプローチは、将来の文の抽象ラベルを予測するために別個の計画モジュールを使用する。
本研究では,プランナーとLMの協調微調整を可能とし,この手法を効果的に改善する手法を提案する。
- 参考スコア(独自算出の注目度): 22.555504014437915
- License:
- Abstract: Through end-to-end training to predict the next token, LLMs have become valuable tools for various tasks. Enhancing their core training in language modeling can improve numerous downstream applications. A successful approach to enhance language modeling uses a separate planning module to predict abstract labels of future sentences and conditions the LM on these predictions. However, this method is non-differentiable, preventing joint end-to-end tuning of the planner with the LM. We propose an effective method to improve this approach by enabling joint fine-tuning of the planner and the LM. We show that a naive way of approximating the gradient of selecting a label via the straight-through estimator is not effective. Instead, we propose to use the predicted label probabilities as mixing weights to condition the LM on a weighted average of label embeddings in a differentiable manner. This not only enables joint fine-tuning of the planner and the LM, but also allows the LM to draw on the full label distribution predicted by the planner, retaining more information. Our experimental results show consistent improvements in perplexity.
- Abstract(参考訳): 次のトークンを予測するためのエンドツーエンドのトレーニングを通じて、LLMはさまざまなタスクに有用なツールになっています。
言語モデリングにおけるコアトレーニングの強化は、多くのダウンストリームアプリケーションを改善することができる。
言語モデリングを強化するための成功したアプローチでは、別個の計画モジュールを使用して、将来の文の抽象的なラベルと、これらの予測に対するLMの条件を予測する。
しかし、この方法は非微分可能であり、プランナーとLMの協調的なエンドツーエンドチューニングを防止する。
本研究では,プランナーとLMの協調微調整を可能とし,この手法を効果的に改善する手法を提案する。
ストレートスルー推定器によるラベル選択の勾配を近似する方法は有効ではないことを示す。
その代わりに、予測ラベル確率を混合重みとして、ラベル埋め込みの重み付き平均でLMを異なる方法で条件付けることを提案する。
これは、プランナーとLMの共同微調整を可能にするだけでなく、プランナーによって予測される完全なラベル分布をLMが描画し、より多くの情報を保持することを可能にする。
実験の結果,難易度は一貫した改善が見られた。
関連論文リスト
- Get Confused Cautiously: Textual Sequence Memorization Erasure with Selective Entropy Maximization [17.20276556057748]
大規模言語モデル(LLM)は、トレーニングセットの冗長性からいくつかのテキストシーケンスを暗記し、引用することが発見されている。
このTSM(Textual Sequence Memorization)現象は、特定の記憶されたテキストを生成するのを防ぐために、LCM出力の調整を要求される。
TSM消去のための既存の方法は、モデルユーティリティを実質的に損なうことなく、大量の記憶されたサンプルを忘れることができない。
論文 参考訳(メタデータ) (2024-08-09T10:26:11Z) - Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning [5.487210426671288]
本研究では,小規模LMの推論能力が自己学習によって向上できることを実証する。
また、従来の自己学習は、直接選好最適化(Direct Preference Optimization)と呼ばれる選好学習アルゴリズムによってさらに強化できることを示す。
論文 参考訳(メタデータ) (2024-07-25T17:59:16Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。
我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。
テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T22:50:41Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - Guiding Language Model Reasoning with Planning Tokens [122.43639723387516]
大規模言語モデル(LLM)は、最近、複雑な推論タスクを実行する能力に対して、かなりの関心を集めている。
より構造的なチェーン・オブ・シークレット・ステップの創出を促す階層的な生成手法を提案する。
提案手法では、トレーニング可能なパラメータ(0.001%)の無視可能な増加が必要であり、完全な微調整か、よりパラメータ効率の良いスキームで適用することができる。
論文 参考訳(メタデータ) (2023-10-09T13:29:37Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Robots That Ask For Help: Uncertainty Alignment for Large Language Model
Planners [85.03486419424647]
KnowNoは、大きな言語モデルの不確実性を測定し、調整するためのフレームワークである。
KnowNoは、タスク完了に関する統計的保証を提供する共形予測理論に基づいている。
論文 参考訳(メタデータ) (2023-07-04T21:25:12Z) - CELDA: Leveraging Black-box Language Model as Enhanced Classifier
without Labels [14.285609493077965]
クラスタリング強化線形識別分析(Linar Discriminative Analysis)は、非常に弱いスーパービジョン信号を用いてテキスト分類精度を向上させる新しい手法である。
我々のフレームワークは、LMモデルやデータラベルの重みや勾配にアクセスすることなく、正確な決定境界を描画する。
論文 参考訳(メタデータ) (2023-06-05T08:35:31Z) - Scaling up ML-based Black-box Planning with Partial STRIPS Models [3.770376172053632]
完全なシンボリックモデルが利用できない設定において、実践者がMLベースのブラックボックスプランニングを改善する方法について検討する。
問題の一部のみを記述した不完全なSTRIPSモデルを指定することで緩和を実現できることを示す。
論文 参考訳(メタデータ) (2022-07-10T14:55:16Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。