論文の概要: Language Models Implement Simple Word2Vec-style Vector Arithmetic
- arxiv url: http://arxiv.org/abs/2305.16130v1
- Date: Thu, 25 May 2023 15:04:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:29:08.979940
- Title: Language Models Implement Simple Word2Vec-style Vector Arithmetic
- Title(参考訳): 単純なWord2Vec型ベクトル算術を実装する言語モデル
- Authors: Jack Merullo, Carsten Eickhoff, Ellie Pavlick
- Abstract要約: 言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,従来の単語埋め込みに慣れ親しんだ計算機構を利用する場合があることを示す。
- 参考スコア(独自算出の注目度): 25.05221156970179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A primary criticism towards language models (LMs) is their inscrutability.
This paper presents evidence that, despite their size and complexity, LMs
sometimes exploit a computational mechanism familiar from traditional word
embeddings: the use of simple vector arithmetic in order to encode abstract
relations (e.g., Poland:Warsaw::China:Beijing). We investigate a range of
language model sizes (from 124M parameters to 176B parameters) in an in-context
learning setting, and find that for a variety of tasks (involving capital
cities, upper-casing, and past-tensing), a key part of the mechanism reduces to
a simple linear update applied by the feedforward networks. We further show
that this mechanism is specific to tasks that require retrieval from
pretraining memory, rather than retrieval from local context. Our results
contribute to a growing body of work on the mechanistic interpretability of
LLMs, and offer reason to be optimistic that, despite the massive and
non-linear nature of the models, the strategies they ultimately use to solve
tasks can sometimes reduce to familiar and even intuitive algorithms.
- Abstract(参考訳): 言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,従来の単語埋め込みに精通した計算機構,すなわち抽象的関係(ポーランド:ワルシャワ::china:beijing など)をエンコードするために単純なベクトル演算を用いる場合について述べる。
言語モデルのサイズ(124Mパラメータから176Bパラメータまで)を文脈内学習環境で検討し、様々なタスク(大都市, 上キャシング, 過去の拡張を含む)に対して、そのメカニズムの重要な部分は、フィードフォワードネットワークで適用された単純な線形更新に還元されることを示す。
さらに, このメカニズムは, ローカルコンテキストからの検索ではなく, 事前学習メモリからの検索を必要とするタスクに特有であることを示した。
この結果は,LLMの機械的解釈可能性の向上に寄与し,モデルが大規模かつ非線形であるにもかかわらず,最終的に課題を解決するために使用する戦略が,慣れ親しんだアルゴリズムや直感的なアルゴリズムに還元されるという楽観的な理由を与える。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Mitigating Social Biases in Language Models through Unlearning [16.166946020697203]
言語モデル(LM)におけるバイアスの緩和は、LMが広く展開されているため、重大な問題となっている。
そこで我々は,(1)デコーダモデルに適用したPCGU(Partitioned Contrastive Gradient Unlearning)と(2)タスクベクトルによる否定(Negation)の2つの非学習手法について検討する。
LLaMA-27Bでは、タスクベクトルによる否定はバイアススコアを11.8%削減する。
論文 参考訳(メタデータ) (2024-06-19T13:38:34Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Underspecification in Language Modeling Tasks: A Causality-Informed
Study of Gendered Pronoun Resolution [0.0]
本稿では,素因性相関の生成における不特定性の役割を説明するための簡単な因果機構を提案する。
その単純さにもかかわらず、我々の因果モデルは2つの軽量ブラックボックス評価手法の開発を直接的に知らせる。
論文 参考訳(メタデータ) (2022-09-30T23:10:11Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。