論文の概要: Token Weighting for Long-Range Language Modeling
- arxiv url: http://arxiv.org/abs/2503.09202v1
- Date: Wed, 12 Mar 2025 09:46:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:36:25.103726
- Title: Token Weighting for Long-Range Language Modeling
- Title(参考訳): 長距離言語モデリングのためのトークン重み付け
- Authors: Falko Helm, Nico Daheim, Iryna Gurevych,
- Abstract要約: 損失時の各トレーニングトークンに異なる重みを割り当てる新しいトークン重み付け方式を提案する。
複数の長文理解タスクにおける全ての手法を評価し、不均一な損失重みが有用であることを示す。
この研究は、長いコンテキスト言語モデリングのトレードオフのより深い理解に寄与します。
- 参考スコア(独自算出の注目度): 50.2371550397256
- License:
- Abstract: Many applications of large language models (LLMs) require long-context understanding, but models continue to struggle with such tasks. We hypothesize that conventional next-token prediction training could contribute to this, because each token is assigned equal weight. Yet, intuitively, the amount of context needed to predict the next token accurately varies greatly across different data. To reflect this, we propose various novel token-weighting schemes that assign different weights to each training token in the loss, thereby generalizing existing works. For this, we categorize token-weighting methods using a two-step framework which compares the confidences of a long-context and short-context model to score tokens. We evaluate all methods on multiple long-context understanding tasks and show that non-uniform loss weights are helpful to improve the long-context abilities of LLMs. Different short-context models can be used effectively for token scoring, including models that are much smaller than the long-context model that is trained. All in all, this work contributes to a better understanding of the trade-offs long-context language modeling faces and provides guidelines for model steering via loss-weighting based on empirical evidence. The code can be found on Github.
- Abstract(参考訳): 大規模言語モデル(LLM)の多くのアプリケーションは、長いコンテキストの理解を必要とするが、モデルはそのようなタスクに苦戦し続けている。
トークンが等重に割り当てられているため、従来の次世代予測トレーニングがこれに寄与する可能性があると仮定する。
しかし直感的には、次のトークンを予測するのに必要なコンテキストの量は、異なるデータ間で正確に大きく異なる。
そこで本研究では,各トレーニングトークンに異なる重みを割り当てる新しいトークン重み付け方式を提案する。
そこで,2段階のフレームワークを用いてトークン重み付け手法を分類し,長文および短文モデルの信頼度を比較してトークンをスコアリングする。
複数の長文理解タスクにおける全ての手法を評価し,LLMの長文理解能力向上に一様でない損失重みが有効であることを示す。
異なる短コンテキストモデルはトークンスコアリングに効果的に使用することができ、トレーニングされる長コンテキストモデルよりもはるかに小さいモデルを含む。
全体として、この研究は、長いコンテキスト言語モデリングのトレードオフ面の理解を深め、経験的証拠に基づいた損失重み付けによるモデルステアリングのガイドラインを提供する。
コードはGithubにある。
関連論文リスト
- What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。
階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文 参考訳(メタデータ) (2024-10-23T11:06:36Z) - Dual Process Learning: Controlling Use of In-Context vs. In-Weights Strategies with Weight Forgetting [15.69952375347308]
言語モデルは、文脈内学習(ICL)を実行する能力を持つ
言語モデルは、コンテキスト内で学習する能力があるにもかかわらず、目に見えないか、めったに見られないトークンに直面したときに苦労することが知られている。
本研究では,玩具モデル,マスク言語モデル,自己回帰言語モデルを用いて,合成タスクと自然主義タスクの両方に関する構造的インコンテキストアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2024-05-28T21:38:20Z) - Better & Faster Large Language Models via Multi-token Prediction [29.067271500844928]
GPTやLlamaのような大規模言語モデルは、次のトーケン予測損失で訓練される。
複数の未来のトークンを同時に予測するための言語モデルをトレーニングすることで、より高いサンプル効率が得られることを提案する。
論文 参考訳(メタデータ) (2024-04-30T17:33:57Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。