論文の概要: Beyond Tokens: Concept-Level Training Objectives for LLMs
- arxiv url: http://arxiv.org/abs/2601.11791v1
- Date: Fri, 16 Jan 2026 21:35:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.325435
- Title: Beyond Tokens: Concept-Level Training Objectives for LLMs
- Title(参考訳): Beyond Tokens: LLMのためのコンセプトレベルトレーニングオブジェクト
- Authors: Laya Iyer, Pranav Somani, Alice Guo, Dan Jurafsky, Chen Shani,
- Abstract要約: Next-token Prediction (NTP) はtextittoken レベルで動作し、単一の参照継続からの逸脱をエラーとして扱う。
我々はトークンレベルから概念レベルへのシフトを提案し、概念は同じアイデアの複数の曲面形式をグループ化する。
提案手法は, NLP ベンチマークにおいて, NTP モデルよりも低難易度化, ドメインシフト時の堅牢性の向上, 性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 27.252567251972028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The next-token prediction (NTP) objective has been foundational in the development of modern large language models (LLMs), driving advances in fluency and generalization. However, NTP operates at the \textit{token} level, treating deviations from a single reference continuation as errors even when alternative continuations are equally plausible or semantically equivalent (e.g., ``mom'' vs. ``mother''). As a result, token-level loss can penalize valid abstractions, paraphrases, or conceptually correct reasoning paths, biasing models toward surface form rather than underlying meaning. This mismatch between the training signal and semantic correctness motivates learning objectives that operate over higher-level representations. We propose a shift from token-level to concept-level prediction, where concepts group multiple surface forms of the same idea (e.g., ``mom,'' ``mommy,'' ``mother'' $\rightarrow$ \textit{MOTHER}). We introduce various methods for integrating conceptual supervision into LLM training and show that concept-aware models achieve lower perplexity, improved robustness under domain shift, and stronger performance than NTP-based models on diverse NLP benchmarks. This suggests \textit{concept-level supervision} as an improved training signal that better aligns LLMs with human semantic abstractions.
- Abstract(参考訳): 次世代の予測 (NTP) は, 最新の大規模言語モデル (LLM) の開発に基礎を置き, 流布や一般化の進展を推し進めている。
しかしながら、NTP は \textit{token} レベルで動作し、一つの参照継続からの逸脱を、代替継続が等しく妥当または意味論的に等価である場合でもエラーとして扱う(例 , ``mom'' 対 ``mother''')。
その結果、トークンレベルの損失は有効な抽象化やパラフレーズ、概念的に正しい推論パスを罰し、基礎的な意味ではなく表面的な形式に偏りを付けることができる。
このトレーニング信号と意味的正しさのミスマッチは、より高いレベルの表現を操作する学習目標を動機付けます。
トークンレベルから概念レベルへのシフトを提案し、同じアイデアの複数の曲面形式(例 , ``mom,'' ``mommy,'' ``mother'' $\rightarrow$ \textit{MOTHER} )をグループ化する。
LLMトレーニングに概念的監督を統合するための様々な手法を導入し、概念意識モデルが低難易度を実現し、ドメインシフトによる堅牢性を向上し、多様なNLPベンチマーク上でのNTPベースのモデルよりも強力な性能を示す。
これは、LLMと人間のセマンティックな抽象化をよりよく整合させるトレーニングシグナルとして、‘textit{concept-level supervision} が提案されている。
関連論文リスト
- Idea-Gated Transformers: Enforcing Semantic Coherence via Differentiable Vocabulary Pruning [0.40611352512781856]
本稿では,セマンティックプランニングと構文生成を分離した新しいアーキテクチャであるIdean-Gated Transformerを紹介する。
本稿では,意味的に無関係なトークンを抑え,検索空間をリアルタイムで効果的に刈り取る,微分可能なゲーティング機構を提案する。
論文 参考訳(メタデータ) (2025-12-03T01:17:07Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - Improving Large Language Models with Concept-Aware Fine-Tuning [55.59287380665864]
概念認識ファインチューニング(CAFT)は,大規模言語モデル(LLM)のための新しいマルチトークン学習手法である
CAFTは複数のトークンにまたがるシーケンスの学習を可能にし、より強力な概念認識学習を促進する。
実験は、従来の次世代ファインタニング法と比較して大幅に改善された。
論文 参考訳(メタデータ) (2025-06-09T14:55:00Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - A Simple Contrastive Learning Objective for Alleviating Neural Text
Degeneration [56.64703901898937]
本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。
言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
論文 参考訳(メタデータ) (2022-05-05T08:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。