論文の概要: Extracting Paragraphs from LLM Token Activations
- arxiv url: http://arxiv.org/abs/2409.06328v1
- Date: Tue, 10 Sep 2024 08:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 18:30:15.428592
- Title: Extracting Paragraphs from LLM Token Activations
- Title(参考訳): LLM Token Activation からのパラグラフ抽出
- Authors: Nicholas Pochinkov, Angelo Benoit, Lovkush Agarwal, Zainab Ali Majid, Lucile Ter-Minassian,
- Abstract要約: 生成的大規模言語モデル(LLM)は自然言語処理のタスクに優れるが、その内部の動作はトークンレベルの予測を超えていない。
本研究では,これらのモデルが段落の内容を決定する度合いについて検討し,その文脈的理解に光を当てる。
- 参考スコア(独自算出の注目度): 0.6990493129893112
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative large language models (LLMs) excel in natural language processing tasks, yet their inner workings remain underexplored beyond token-level predictions. This study investigates the degree to which these models decide the content of a paragraph at its onset, shedding light on their contextual understanding. By examining the information encoded in single-token activations, specifically the "\textbackslash n\textbackslash n" double newline token, we demonstrate that patching these activations can transfer significant information about the context of the following paragraph, providing further insights into the model's capacity to plan ahead.
- Abstract(参考訳): 生成的大規模言語モデル(LLM)は自然言語処理のタスクに優れるが、その内部の動作はトークンレベルの予測を超えていない。
本研究では,これらのモデルが段落の内容を決定する度合いについて検討し,その文脈的理解に光を当てる。
シングルトークンアクティベーション、特に「\textbackslash n\textbackslash n」ダブルライントークンで符号化された情報を調べることで、これらのアクティベーションにパッチを当てることによって、次の段落のコンテキストに関する重要な情報を伝達し、モデルが計画する能力についてより深い洞察を与えることができることを示す。
関連論文リスト
- Enhancing LLM Character-Level Manipulation via Divide and Conquer [108.6908427615402]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - In-Context Explainers: Harnessing LLMs for Explaining Black Box Models [28.396104334980492]
大規模言語モデル(LLM)は、機械翻訳、常識推論、言語理解といった複雑なタスクにおいて、例外的な機能を示している。
このような多様なタスクにおけるLLMの適応性の主要な理由の1つは、インコンテキスト学習(ICL)能力である。
本稿では,LLMのICL機能を利用して,他の予測モデルによる予測を説明する新しい3つの手法,In-Context Explainersを提案する。
論文 参考訳(メタデータ) (2023-10-09T15:31:03Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Knowledgeable Salient Span Mask for Enhancing Language Models as
Knowledge Base [51.55027623439027]
我々は、モデルが構造化されていないテキストから、完全に自己教師された方法でより多くの知識を学習するのを助ける2つのソリューションを開発する。
最高の知識を得るために、私たちは、継続的事前学習における知識の完全な自己教師型学習を初めて探求します。
論文 参考訳(メタデータ) (2022-04-17T12:33:34Z) - A Survey of Knowledge Enhanced Pre-trained Models [28.160826399552462]
知識注入を伴う事前学習言語モデルを知識強化事前学習言語モデル(KEPLM)と呼ぶ。
これらのモデルは深い理解と論理的推論を示し、解釈可能性を導入する。
論文 参考訳(メタデータ) (2021-10-01T08:51:58Z) - Sorting through the noise: Testing robustness of information processing
in pre-trained language models [5.371816551086117]
本稿では,意図しないコンテンツに関連性のあるコンテキスト情報を配置するモデルの頑健さについて検討する。
モデルが従来の文脈から関連する事実を理解・適用するために単純な文脈に現れるが、注意散らしながら無関係なコンテンツの存在は、混乱したモデル予測に明らかな影響を与えている。
論文 参考訳(メタデータ) (2021-09-25T16:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。