論文の概要: Punctuation and Predicates in Language Models
- arxiv url: http://arxiv.org/abs/2508.14067v1
- Date: Mon, 11 Aug 2025 09:53:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.148282
- Title: Punctuation and Predicates in Language Models
- Title(参考訳): 言語モデルにおける句読解と述語
- Authors: Sonakshi Chauhan, Maheep Chaudhary, Koby Choy, Samuel Nellessen, Nandi Schoots,
- Abstract要約: 我々は,GPT-2,DeepSeek,Gemmaの各層における句読点の必要性と有効性を評価する。
異なる推論規則がLLMによって異なる処理を行うかを検討する。
本研究は, LLMにおける句読解と推論の機構について, 新たな知見を提供するものである。
- 参考スコア(独自算出の注目度): 0.5937476291232802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we explore where information is collected and how it is propagated throughout layers in large language models (LLMs). We begin by examining the surprising computational importance of punctuation tokens which previous work has identified as attention sinks and memory aids. Using intervention-based techniques, we evaluate the necessity and sufficiency (for preserving model performance) of punctuation tokens across layers in GPT-2, DeepSeek, and Gemma. Our results show stark model-specific differences: for GPT-2, punctuation is both necessary and sufficient in multiple layers, while this holds far less in DeepSeek and not at all in Gemma. Extending beyond punctuation, we ask whether LLMs process different components of input (e.g., subjects, adjectives, punctuation, full sentences) by forming early static summaries reused across the network, or if the model remains sensitive to changes in these components across layers. Extending beyond punctuation, we investigate whether different reasoning rules are processed differently by LLMs. In particular, through interchange intervention and layer-swapping experiments, we find that conditional statements (if, then), and universal quantification (for all) are processed very differently. Our findings offer new insight into the internal mechanisms of punctuation usage and reasoning in LLMs and have implications for interpretability.
- Abstract(参考訳): 本稿では,大規模な言語モデル (LLM) において,情報を収集する場所と,それを階層的に伝播する方法について検討する。
我々は,従来の研究で注目シンクやメモリエイズとして認識されていた句読点の驚くべき計算重要性について検討することから始める。
介入に基づく手法を用いて,GPT-2,DeepSeek,Gemmaの各層にまたがる句読解トークンの必要性と有効性(モデル性能の保存)を評価する。
GPT-2では,複数の層で句読点が必要かつ十分であるのに対して,DeepSeekではそれよりもはるかに少なく,Gemmaではまったく変化しない。
句読点を超えて、LLM が入力の異なるコンポーネント(例えば、主語、形容詞、句読点、全文)をネットワーク全体で再利用した初期静的要約を生成するか、あるいは、モデルが層間のコンポーネントの変化に敏感なままなのかを問う。
句読点を超えて、異なる推論規則がLLMによって異なる処理がなされているかどうかを検討する。
特に、相互干渉と層スワッピング実験により、条件文(if, then)と普遍量化(all)は、非常に異なる処理がなされていることが分かる。
本研究は, LLMにおける句読点利用と推論の内部メカニズムに関する新たな知見を提供し, 解釈可能性に影響を及ぼすものである。
関連論文リスト
- Contextualize-then-Aggregate: Circuits for In-Context Learning in Gemma-2 2B [46.99314622487279]
In-Context Learning (ICL)は、大規模言語モデル(LLM)の興味深い能力である。
我々は5つの自然主義ICLタスクに対してGemma-2 2Bにおける情報フローを因果介入を用いて同定する。
このモデルでは,2段階戦略を用いてタスク情報を推論し,コンテキスト化-then-aggregateと呼ぶ。
論文 参考訳(メタデータ) (2025-03-31T18:33:55Z) - Does Representation Matter? Exploring Intermediate Layers in Large Language Models [22.704926222438456]
大規模言語モデル(LLM)における中間表現の品質について検討する。
中間層は、最終層よりも下流のタスクに対してより情報的な表現をもたらすことがよくあります。
本研究は,LLMの内部力学とアーキテクチャ最適化とトレーニングのためのガイド戦略を照らしたものである。
論文 参考訳(メタデータ) (2024-12-12T18:48:51Z) - Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - Breaking Down Word Semantics from Pre-trained Language Models through
Layer-wise Dimension Selection [0.0]
本稿では,レイヤ間の中間出力にバイナリマスクを適用することにより,BERTから意味感覚を分離することを目的とする。
2つの異なる文の目的語が同じ意味を持つかどうかを判定するために、二分分類により、アンタングル埋め込みを評価する。
論文 参考訳(メタデータ) (2023-10-08T11:07:19Z) - How to Handle Different Types of Out-of-Distribution Scenarios in Computational Argumentation? A Comprehensive and Fine-Grained Field Study [59.13867562744973]
この研究は、オフ・オブ・ディストリビューション(OOD)シナリオにおけるLMの能力を体系的に評価する。
このような学習パラダイムの有効性は,OODの種類によって異なることがわかった。
具体的には、ICLはドメインシフトに優れているが、プロンプトベースの微調整はトピックシフトに勝っている。
論文 参考訳(メタデータ) (2023-09-15T11:15:47Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。