Fugu-MT 論文翻訳(概要): Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics

論文の概要: Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics

arxiv url: http://arxiv.org/abs/2403.01509v1
Date: Sun, 3 Mar 2024 13:14:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 21:07:26.686978
Title: Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics
Title（参考訳）: 素晴らしい意味論とそれを見つける場所--生成的llmのどの層が語彙的意味論を反映しているかの検討
Authors: Zhu Liu, Cunliang Kong, Ying Liu and Maosong Sun
Abstract要約: 本研究では,Llama2という大言語モデルの語彙的意味論の進化について,各層の末尾に隠れた状態を探索することによって検討する。実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
参考スコア（独自算出の注目度）: 55.694517197189924
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models have achieved remarkable success in general language understanding tasks. However, as a family of generative methods with the objective of next token prediction, the semantic evolution with the depth of these models are not fully explored, unlike their predecessors, such as BERT-like architectures. In this paper, we specifically investigate the bottom-up evolution of lexical semantics for a popular LLM, namely Llama2, by probing its hidden states at the end of each layer using a contextualized word identification task. Our experiments show that the representations in lower layers encode lexical semantics, while the higher layers, with weaker semantic induction, are responsible for prediction. This is in contrast to models with discriminative objectives, such as mask language modeling, where the higher layers obtain better lexical semantics. The conclusion is further supported by the monotonic increase in performance via the hidden states for the last meaningless symbols, such as punctuation, in the prompting strategy.
Abstract（参考訳）: 大規模言語モデルは、一般的な言語理解タスクで著しく成功した。しかし、次のトークン予測を目的とした生成手法のファミリーとして、これらのモデルの深さによる意味進化は、BERTのような先駆的なアーキテクチャとは異なり、完全には解明されていない。本稿では,Llama2という一般的なLLMの語彙的意味論のボトムアップ進化を,文脈化された単語識別タスクを用いて各層の末尾に隠された状態を探索することによって詳細に検討する。実験により,下位層における表現は語彙的意味論を符号化し,上位層はより弱い意味的帰納法を持ち,予測の責任を負うことが示された。これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。この結論は、プロンプト戦略における最後の無意味な記号(句読点など)の隠れ状態による単調な性能向上によってさらに支持される。

関連論文リスト

Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。グループ化されたサブワードの検査では様々な意味的類似性を示します
論文参考訳（メタデータ） (2024-11-07T08:38:32Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
Evidence from fMRI Supports a Two-Phase Abstraction Process in Language Models [1.534667887016089]
本研究では,大規模言語モデルから抽出した中間的隠れ状態が,自然言語刺激による脳の反応を予測可能であることを示す。また,レイヤワイド符号化性能とLLMからの表現の内在的次元性との間にも強い対応性を示す。
論文参考訳（メタデータ） (2024-09-09T16:33:16Z)
Breaking Down Word Semantics from Pre-trained Language Models through Layer-wise Dimension Selection [0.0]
本稿では,レイヤ間の中間出力にバイナリマスクを適用することにより,BERTから意味感覚を分離することを目的とする。 2つの異なる文の目的語が同じ意味を持つかどうかを判定するために、二分分類により、アンタングル埋め込みを評価する。
論文参考訳（メタデータ） (2023-10-08T11:07:19Z)
Don't Judge a Language Model by Its Last Layer: Contrastive Learning with Layer-Wise Attention Pooling [6.501126898523172]
近年の事前学習型言語モデル (PLM) は, 言語的特徴や文脈化文表現の学習を通じて, 多くの自然言語処理タスクにおいて大きな成功を収めている。本稿では,各層に捕えられたレイヤワイド信号をモデルで保存し,下流タスクの消化言語的特徴を学習する,アテンションベースのプーリング戦略を提案する。
論文参考訳（メタデータ） (2022-09-13T13:09:49Z)
Integrating Language Guidance into Vision-based Deep Metric Learning [78.18860829585182]
埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
論文参考訳（メタデータ） (2022-03-16T11:06:50Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)
Probing Pretrained Language Models for Lexical Semantics [76.73599166020307]
類型的多様言語と5つの異なる語彙課題にまたがる系統的経験分析を行った。我々の結果は、普遍的に維持されるパターンとベストプラクティスを示しているが、言語やタスクにまたがる顕著なバリエーションを示している。
論文参考訳（メタデータ） (2020-10-12T14:24:01Z)
Quantifying the Contextualization of Word Representations with Semantic Class Probing [8.401007663676214]
事前訓練された言語モデルは、多くのNLPタスクにおいて、新しい最先端技術を実現している。単語のセマンティッククラスが文脈化された埋め込みから推測できる範囲を研究することにより、文脈化の量、すなわち、単語が文脈内でどのように解釈されるかの定量化を行う。
論文参考訳（メタデータ） (2020-04-25T17:49:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。