論文の概要: Backward Lens: Projecting Language Model Gradients into the Vocabulary
Space
- arxiv url: http://arxiv.org/abs/2402.12865v1
- Date: Tue, 20 Feb 2024 09:57:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 15:53:42.727826
- Title: Backward Lens: Projecting Language Model Gradients into the Vocabulary
Space
- Title(参考訳): 後方レンズ:語彙空間に言語モデル勾配を投影する
- Authors: Shahar Katz, Yonatan Belinkov, Mor Geva, Lior Wolf
- Abstract要約: 勾配行列は、その前方および後方の入力の低ランク線形結合としてキャスト可能であることを示す。
次に、これらの勾配を語彙項目に投影する手法を開発し、新しい情報がLMのニューロンにどのように格納されているかのメカニズムを探索する。
- 参考スコア(独自算出の注目度): 94.85922991881242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how Transformer-based Language Models (LMs) learn and recall
information is a key goal of the deep learning community. Recent
interpretability methods project weights and hidden states obtained from the
forward pass to the models' vocabularies, helping to uncover how information
flows within LMs. In this work, we extend this methodology to LMs' backward
pass and gradients. We first prove that a gradient matrix can be cast as a
low-rank linear combination of its forward and backward passes' inputs. We then
develop methods to project these gradients into vocabulary items and explore
the mechanics of how new information is stored in the LMs' neurons.
- Abstract(参考訳): トランスフォーマーベースの言語モデル(LM)がどのように学習し、情報をリコールするかを理解することが、ディープラーニングコミュニティの重要な目標である。
最近の解釈可能性法では、前方パスから得られた重みと隠れ状態がモデルの語彙に投影され、LM内の情報の流れを明らかにするのに役立つ。
本研究では,この手法をLMの後方通過と勾配に拡張する。
まず,勾配行列を前方および後方の入力の低ランク線形結合としてキャスティングできることを証明した。
次に、これらの勾配を語彙項目に投影し、lsmのニューロンにどのように新しい情報が格納されるかを探索する手法を開発した。
関連論文リスト
- Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Bridging Vision and Language Spaces with Assignment Prediction [47.04855334955006]
VLAPは、事前訓練された視覚モデルと大規模言語モデル(LLM)を橋渡しする新しいアプローチである
2つのモダリティ埋め込み空間を橋渡しするために、確立された単語埋め込みを利用する。
VLAPは、以前の線形変換ベースのアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-04-15T10:04:15Z) - Large Language Model with Graph Convolution for Recommendation [21.145230388035277]
テキスト情報は、時々品質の低いものになり、現実世界のアプリケーションにとってその効果を阻害する。
大きな言語モデルにカプセル化された知識と推論機能によって、LCMを活用することが、記述改善の有望な方法として現れます。
本稿では,ユーザ・イテムグラフの高次関係を捉えるために,LLMを抽出するグラフ対応畳み込みLLM法を提案する。
論文 参考訳(メタデータ) (2024-02-14T00:04:33Z) - Realizing Disentanglement in LM Latent Space via Vocabulary-Defined Semantics [32.178931149612644]
本稿では,語彙定義意味論(vocabulary-defined semantics)と呼ばれる先駆的アプローチを導入する。
我々は、LM適応の新たな方法として、データ表現のセマンティッククラスタリングを行う。
提案手法は,検索拡張生成とパラメータ効率の微調整の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Do LLMs Dream of Ontologies? [15.049502693786698]
大規模言語モデル(LLM)は、最近、自動テキスト理解と生成に革命をもたらした。
本稿では,汎用的な事前学習 LLM が,どの程度の知識を持つかを検討する。
論文 参考訳(メタデータ) (2024-01-26T15:10:23Z) - Learn to Unlearn for Deep Neural Networks: Minimizing Unlearning
Interference with Gradient Projection [56.292071534857946]
最近のデータプライバシ法は、機械学習への関心を喚起している。
課題は、残りのデータセットに関する知識を変更することなく、忘れたデータに関する情報を捨てることである。
我々は、プロジェクテッド・グラディエント・アンラーニング(PGU)という、プロジェクテッド・グラディエント・ベースの学習手法を採用する。
トレーニングデータセットがもはやアクセスできない場合でも、スクラッチからスクラッチで再トレーニングされたモデルと同じような振る舞いをするモデルを、我々のアンラーニング手法が生成できることを実証するための実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-12-07T07:17:24Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Detecting Unintended Memorization in Language-Model-Fused ASR [10.079200692649462]
LMトレーニングデータからランダムテキストシーケンス(カナリアと呼ぶ)の記憶を検出するためのフレームワークを提案する。
In a production-grade Conformer RNN-T E2E model fused with a Transformer LM, we show that detected memorization of canary from the LM training data of 300M example。
また,プライバシ保護を動機として,拡張段階のLMトレーニングを実施すれば,そのような記憶が大幅に減少することを示す。
論文 参考訳(メタデータ) (2022-04-20T16:35:13Z) - Language Model Prior for Low-Resource Neural Machine Translation [85.55729693003829]
ニューラル翻訳モデル (TM) において, LM を事前に組み込む新しい手法を提案する。
正規化項を追加し、TMの出力分布をLMの下で予測可能とする。
2つの低リソース機械翻訳データセットの結果は、限られたモノリンガルデータであっても明らかな改善を示している。
論文 参考訳(メタデータ) (2020-04-30T16:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。