論文の概要: LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers
- arxiv url: http://arxiv.org/abs/2507.04404v1
- Date: Sun, 06 Jul 2025 14:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.163376
- Title: LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers
- Title(参考訳): LayerCake: 大規模言語モデル層におけるトークン対応コントラストデコーディング
- Authors: Jingze Zhu, Yongliang Wu, Wenbo Zhu, Jiawang Cao, Yanqiang Zheng, Jiawei Chen, Xu Yang, Bernt Schiele, Jonas Fischer, Xinting Hu,
- Abstract要約: 大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
- 参考スコア(独自算出の注目度): 46.684088596323505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) excel at natural language understanding and generation but remain vulnerable to factual errors, limiting their reliability in knowledge-intensive tasks. While decoding-time strategies provide a promising efficient solution without training, existing methods typically treat token-level and layer-level signals in isolation, overlooking the joint dynamics between them. In this work, we introduce a token-aware, layer-localized contrastive decoding method that aligns specific token types with their most influential transformer layers to improve factual generation. Through empirical attention analysis, we identify two key patterns: punctuation tokens receive dominant attention in early layers, while conceptual tokens govern semantic reasoning in intermediate layers. By selectively suppressing attention to these token types at their respective depths, we achieve the induction of controlled factual degradation and derive contrastive signals to guide the final factual decoding. Our method requires no additional training or model modification, and experiments demonstrate that our method consistently improves factuality across multiple LLMs and various benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実エラーに弱いままであり、知識集約タスクにおける信頼性を制限している。
復号時間戦略はトレーニングなしで有望な効率的なソリューションを提供するが、既存の方法ではトークンレベルとレイヤレベルの信号を分離して扱い、それら間のジョイントダイナミクスを見渡すのが一般的である。
本研究では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型,層局在型コントラストデコーディング手法を提案する。
経験的注意分析により、句読点が初期層で支配的な注目を集める一方、概念的トークンが中間層で意味論的推論を司る2つの重要なパターンを同定する。
それぞれの深さでこれらのトークンタイプへの注意を選択的に抑制することにより、制御された事実劣化の誘導を実現し、最終的な事実復号を導出するコントラストシグナルを導出する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
関連論文リスト
- Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - BRIDLE: Generalized Self-supervised Learning with Quantization [15.121857164574704]
自己教師付き学習は、さまざまな領域にわたるラベルなしデータから意味のある表現を学ぶための強力なアプローチである。
BERTが自然言語処理において双方向の深いコンテキストを捉えることに触発されて、同様のフレームワークがオーディオなどの他のモダリティに適応している。
本稿では、残留量子化を双方向学習プロセスに組み込んだ自己教師型事前学習フレームワークBRIDLEを紹介する。
論文 参考訳(メタデータ) (2025-02-04T08:54:06Z) - Enhancing Character-Level Understanding in LLMs through Token Internal Structure Learning [20.801571525710834]
Token Internal Position Awareness (TIPA) は、トークン内の文字位置をキャプチャするモデルの能力を大幅に改善する手法である。
TIPAは、大きな言語モデルにおける位置予測精度を高め、元のテキストにおけるターゲット文字のより正確な識別を可能にする。
論文 参考訳(メタデータ) (2024-11-26T18:44:39Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Don't Judge a Language Model by Its Last Layer: Contrastive Learning
with Layer-Wise Attention Pooling [6.501126898523172]
近年の事前学習型言語モデル (PLM) は, 言語的特徴や文脈化文表現の学習を通じて, 多くの自然言語処理タスクにおいて大きな成功を収めている。
本稿では,各層に捕えられたレイヤワイド信号をモデルで保存し,下流タスクの消化言語的特徴を学習する,アテンションベースのプーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-13T13:09:49Z) - An Exploratory Study on Code Attention in BERT [8.488193857572211]
コード上でのPLMの注意行動を調査し,それを自然言語と比較する。
BERT は NLP において最も注目されているトークンとは対照的に,特に識別子やセパレータといった構文上のエンティティに注意を払っている。
この発見は、NLPで使われる一般的な埋め込みを使わずに、コード固有の表現を使用することで、研究コミュニティの恩恵を受けることができる。
論文 参考訳(メタデータ) (2022-04-05T21:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。