論文の概要: LLM Pretraining with Continuous Concepts
- arxiv url: http://arxiv.org/abs/2502.08524v1
- Date: Wed, 12 Feb 2025 16:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:03.518739
- Title: LLM Pretraining with Continuous Concepts
- Title(参考訳): 連続概念を用いたLLM事前学習
- Authors: Jihoon Tack, Jack Lanchantin, Jane Yu, Andrew Cohen, Ilia Kulikov, Janice Lan, Shibo Hao, Yuandong Tian, Jason Weston, Xian Li,
- Abstract要約: 次のトークン予測は、大規模言語モデルの事前トレーニングで使用される標準的なトレーニング目標である。
離散的な次のトークン予測と連続的な概念を組み合わせた新しい事前学習フレームワークであるContinuous Concept Mixing (CoCoMix)を提案する。
- 参考スコア(独自算出の注目度): 71.98047075145249
- License:
- Abstract: Next token prediction has been the standard training objective used in large language model pretraining. Representations are learned as a result of optimizing for token-level perplexity. We propose Continuous Concept Mixing (CoCoMix), a novel pretraining framework that combines discrete next token prediction with continuous concepts. Specifically, CoCoMix predicts continuous concepts learned from a pretrained sparse autoencoder and mixes them into the model's hidden state by interleaving with token hidden representations. Through experiments on multiple benchmarks, including language modeling and downstream reasoning tasks, we show that CoCoMix is more sample efficient and consistently outperforms standard next token prediction, knowledge distillation and inserting pause tokens. We find that combining both concept learning and interleaving in an end-to-end framework is critical to performance gains. Furthermore, CoCoMix enhances interpretability and steerability by allowing direct inspection and modification of the predicted concept, offering a transparent way to guide the model's internal reasoning process.
- Abstract(参考訳): 次のトークン予測は、大規模言語モデルの事前トレーニングで使用される標準的なトレーニング目標である。
表現はトークンレベルの難易度を最適化した結果、学習される。
離散的な次のトークン予測と連続的な概念を組み合わせた新しい事前学習フレームワークであるContinuous Concept Mixing (CoCoMix)を提案する。
具体的には、CoCoMixは事前訓練されたスパースオートエンコーダから学んだ継続的概念を予測し、トークン隠れ表現とインターリーブすることでモデルの隠れ状態に混合する。
言語モデリングやダウンストリーム推論タスクを含む複数のベンチマークの実験を通じて、CoCoMixはよりサンプリング効率が高く、標準の次のトークン予測や知識蒸留、一時停止トークンの挿入よりも一貫して優れていることを示す。
エンド・ツー・エンドのフレームワークにおける概念学習とインターリービングの組み合わせは、パフォーマンス向上に不可欠であることが分かりました。
さらに、CoCoMixは、予測された概念の直接検査と修正を可能にし、モデルの内部推論プロセスを導出する透過的な方法を提供することにより、解釈可能性と操縦性を向上させる。
関連論文リスト
- Bayesian Concept Bottleneck Models with LLM Priors [9.368695619127084]
概念ボトルネックモデル (CBM) は、ホワイトボックスモデルとブラックボックスモデルの間の妥協として提案されており、精度を犠牲にすることなく解釈性を実現することを目的としている。
BC-LLM はベイズフレームワーク内の潜在的無限の概念を反復的に探索し、Large Language Models (LLM) が概念抽出のメカニズムと事前の両方として機能する。
論文 参考訳(メタデータ) (2024-10-21T01:00:33Z) - Conceptual Learning via Embedding Approximations for Reinforcing Interpretability and Transparency [2.7719338074999547]
解釈可能性が最重要である領域において、概念ボトルネックモデル(CBM)が重要なツールとして出現している。
本研究では、アンダーラインtextbfReinforcecing Interpretability and Transparency に対するアンダーラインtextbfEmbedding UnderlinetextbfApproximations によるアンダーラインtextbfConceptual UnderlinetextbfLbeddingを提案する。
論文 参考訳(メタデータ) (2024-06-13T06:04:34Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - Beyond Concept Bottleneck Models: How to Make Black Boxes Intervenable? [8.391254800873599]
本稿では,設計によって解釈できない事前学習型ニューラルネットワークに対して,概念に基づく介入を行う手法を提案する。
我々は、インターベンタビリティの概念を概念に基づく介入の有効性の尺度として定式化し、この定義を微調整ブラックボックスに活用する。
論文 参考訳(メタデータ) (2024-01-24T16:02:14Z) - ConcEPT: Concept-Enhanced Pre-Training for Language Models [57.778895980999124]
ConcEPTは、概念知識を事前訓練された言語モデルに注入することを目的としている。
これは、事前訓練されたコンテキストで言及されたエンティティの概念を予測するために、外部エンティティの概念予測を利用する。
実験の結果,ConcEPTは概念強化事前学習により概念知識を向上することがわかった。
論文 参考訳(メタデータ) (2024-01-11T05:05:01Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Federated Conformal Predictors for Distributed Uncertainty
Quantification [83.50609351513886]
コンフォーマル予測は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして現れつつある。
本稿では,共形予測を連邦学習環境に拡張する。
本稿では、FL設定に適した部分交換可能性の弱い概念を提案し、それをフェデレート・コンフォーマル予測フレームワークの開発に利用する。
論文 参考訳(メタデータ) (2023-05-27T19:57:27Z) - Interactive Concept Bottleneck Models [14.240165842615674]
概念ボトルネックモデル(CBM)は、まず、予測タスクに関連する人間解釈可能な概念のラベルを予測する、解釈可能なニューラルネットワークである。
我々は、CBMを対話的な予測設定に拡張し、モデルがラベルの協調者に対していくつかの概念をクエリできるようにします。
我々は,最終的な予測を最大化するために,ラベルを要求すべき概念を選択するインタラクションポリシーを開発する。
論文 参考訳(メタデータ) (2022-12-14T11:39:18Z) - Efficient Self-Ensemble Framework for Semantic Segmentation [1.0819401241801994]
セマンティックセグメンテーションを強化するために,アンサンブル手法によって提供される性能向上を活用することを提案する。
我々のセルフアンサンブルフレームワークは,特徴ピラミッドネットワーク方式によって構築されたマルチスケール機能を活用している。
我々のモデルはエンド・ツー・エンドの訓練が可能であり、アンサンブルの従来の面倒なマルチステージ・トレーニングを緩和する。
論文 参考訳(メタデータ) (2021-11-26T00:35:09Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。