論文の概要: A Mechanism for Solving Relational Tasks in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2305.16130v2
- Date: Thu, 12 Oct 2023 21:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:47:52.184860
- Title: A Mechanism for Solving Relational Tasks in Transformer Language Models
- Title(参考訳): トランスフォーマー言語モデルにおける関係課題の解法
- Authors: Jack Merullo, Carsten Eickhoff, Ellie Pavlick
- Abstract要約: 言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスクを解くための単純な計算機構を利用する場合があることを示す。
- 参考スコア(独自算出の注目度): 36.29933464955979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A primary criticism towards language models (LMs) is their inscrutability.
This paper presents evidence that, despite their size and complexity, LMs
sometimes exploit a simple computational mechanism to solve one-to-one
relational tasks (e.g., capital_of(Poland)=Warsaw). We investigate a range of
language model sizes (from 124M parameters to 176B parameters) in an in-context
learning setting, and find that for a variety of tasks (involving capital
cities, upper-casing, and past-tensing) a key part of the mechanism reduces to
a simple linear update typically applied by the feedforward (FFN) networks.
These updates also tend to promote the output of the relation in a
content-independent way (e.g., encoding Poland:Warsaw::China:Beijing),
revealing a predictable pattern that these models take in solving these tasks.
We further show that this mechanism is specific to tasks that require retrieval
from pretraining memory, rather than retrieval from local context. Our results
contribute to a growing body of work on the mechanistic interpretability of
LLMs, and offer reason to be optimistic that, despite the massive and
non-linear nature of the models, the strategies they ultimately use to solve
tasks can sometimes reduce to familiar and even intuitive algorithms.
- Abstract(参考訳): 言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスク( capital_of(poland)=warsaw など)を解決するための単純な計算機構を lms が利用することがあることを示す。
学習環境における言語モデルのサイズ(124mパラメーターから176bパラメーター)を調査し、様々なタスク(資本都市、上向き、過去型)において、機構の重要な部分がfeedforward(ffn)ネットワークで典型的に適用される単純な線形更新に還元されることを示す。
これらの更新はまた、コンテンツに依存しない方法で関係の出力を促進する傾向がある(例えば、ポーランド:ワルシャワ::china:beijingをエンコーディング)。
さらに, このメカニズムは, ローカルコンテキストからの検索ではなく, 事前学習メモリからの検索を必要とするタスクに特有であることを示した。
この結果は,LLMの機械的解釈可能性の向上に寄与し,モデルが大規模かつ非線形であるにもかかわらず,最終的に課題を解決するために使用する戦略が,慣れ親しんだアルゴリズムや直感的なアルゴリズムに還元されるという楽観的な理由を与える。
関連論文リスト
- Can Large Language Models Learn Independent Causal Mechanisms? [9.950033005734165]
大きな言語モデル(LLM)は、一般的でない設定や分散シフトで同じタスクで不足する。
我々は,複数の疎相互作用言語モデリングモジュールからなる新しいLLMアーキテクチャを開発した。
このような因果的制約は、抽象的および因果的推論タスクにおけるアウト・オブ・ディストリビューション性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-04T23:04:02Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of
Syntax [40.40069999922899]
In-context Learning (ICL)は、大規模言語モデル(LLM)を監督する一般的な方法である。
ICLの普及と実用性にもかかわらず、このような方法で教師付きモデルがタスクの基盤構造を表すかどうかはほとんど分かっていない。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。