論文の概要: Fantastic Semantics and Where to Find Them: Investigating Which Layers
of Generative LLMs Reflect Lexical Semantics
- arxiv url: http://arxiv.org/abs/2403.01509v1
- Date: Sun, 3 Mar 2024 13:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:07:26.686978
- Title: Fantastic Semantics and Where to Find Them: Investigating Which Layers
of Generative LLMs Reflect Lexical Semantics
- Title(参考訳): 素晴らしい意味論とそれを見つける場所--生成的llmのどの層が語彙的意味論を反映しているかの検討
- Authors: Zhu Liu, Cunliang Kong, Ying Liu and Maosong Sun
- Abstract要約: 本研究では,Llama2という大言語モデルの語彙的意味論の進化について,各層の末尾に隠れた状態を探索することによって検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
- 参考スコア(独自算出の注目度): 55.694517197189924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models have achieved remarkable success in general language
understanding tasks. However, as a family of generative methods with the
objective of next token prediction, the semantic evolution with the depth of
these models are not fully explored, unlike their predecessors, such as
BERT-like architectures. In this paper, we specifically investigate the
bottom-up evolution of lexical semantics for a popular LLM, namely Llama2, by
probing its hidden states at the end of each layer using a contextualized word
identification task. Our experiments show that the representations in lower
layers encode lexical semantics, while the higher layers, with weaker semantic
induction, are responsible for prediction. This is in contrast to models with
discriminative objectives, such as mask language modeling, where the higher
layers obtain better lexical semantics. The conclusion is further supported by
the monotonic increase in performance via the hidden states for the last
meaningless symbols, such as punctuation, in the prompting strategy.
- Abstract(参考訳): 大規模言語モデルは、一般的な言語理解タスクで著しく成功した。
しかし、次のトークン予測を目的とした生成手法のファミリーとして、これらのモデルの深さによる意味進化は、BERTのような先駆的なアーキテクチャとは異なり、完全には解明されていない。
本稿では,Llama2という一般的なLLMの語彙的意味論のボトムアップ進化を,文脈化された単語識別タスクを用いて各層の末尾に隠された状態を探索することによって詳細に検討する。
実験により,下位層における表現は語彙的意味論を符号化し,上位層はより弱い意味的帰納法を持ち,予測の責任を負うことが示された。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
この結論は、プロンプト戦略における最後の無意味な記号(句読点など)の隠れ状態による単調な性能向上によってさらに支持される。
関連論文リスト
- Breaking Down Word Semantics from Pre-trained Language Models through
Layer-wise Dimension Selection [0.0]
本稿では,レイヤ間の中間出力にバイナリマスクを適用することにより,BERTから意味感覚を分離することを目的とする。
2つの異なる文の目的語が同じ意味を持つかどうかを判定するために、二分分類により、アンタングル埋め込みを評価する。
論文 参考訳(メタデータ) (2023-10-08T11:07:19Z) - Vec2Gloss: definition modeling leveraging contextualized vectors with
Wordnet gloss [8.741676279851728]
対象単語の文脈的埋め込みから光沢を生成するVec2Gloss'モデルを提案する。
この研究で得られた光沢は、中国語のWordnetの体系的な光沢パターンによって実現されている。
以上の結果から,提案したVec2Glossモデルが文脈的埋め込みの語彙-意味的応用に新たな視点を開きつつあることが示唆された。
論文 参考訳(メタデータ) (2023-05-29T02:37:37Z) - Don't Judge a Language Model by Its Last Layer: Contrastive Learning
with Layer-Wise Attention Pooling [6.501126898523172]
近年の事前学習型言語モデル (PLM) は, 言語的特徴や文脈化文表現の学習を通じて, 多くの自然言語処理タスクにおいて大きな成功を収めている。
本稿では,各層に捕えられたレイヤワイド信号をモデルで保存し,下流タスクの消化言語的特徴を学習する,アテンションベースのプーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-13T13:09:49Z) - Boosting Video-Text Retrieval with Explicit High-Level Semantics [115.66219386097295]
VTRのための新しい視覚言語整合モデルHiSEを提案する。
明示的なハイレベルなセマンティクスを取り入れることで、クロスモーダル表現を改善する。
提案手法は,3つのベンチマークデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-08-08T15:39:54Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular
Subword Units [19.668440671541546]
エンドツーエンドの自動音声認識では、単語レベルのシーケンスを認識するのに適した表現を暗黙的に学習することが期待される。
接続型時間分類(CTC)に基づく階層型条件付きモデルを提案する。
LibriSpeech-100h, 960h, TEDLium2の実験結果から, 提案モデルが標準CTCモデルよりも改良されていることが示された。
論文 参考訳(メタデータ) (2021-10-08T13:15:58Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。
我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文 参考訳(メタデータ) (2020-10-12T14:24:01Z) - Quantifying the Contextualization of Word Representations with Semantic
Class Probing [8.401007663676214]
事前訓練された言語モデルは、多くのNLPタスクにおいて、新しい最先端技術を実現している。
単語のセマンティッククラスが文脈化された埋め込みから推測できる範囲を研究することにより、文脈化の量、すなわち、単語が文脈内でどのように解釈されるかの定量化を行う。
論文 参考訳(メタデータ) (2020-04-25T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。