論文の概要: A Mechanism for Solving Relational Tasks in Transformer Language Models
- arxiv url: http://arxiv.org/abs/2305.16130v2
- Date: Thu, 12 Oct 2023 21:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 17:47:52.184860
- Title: A Mechanism for Solving Relational Tasks in Transformer Language Models
- Title(参考訳): トランスフォーマー言語モデルにおける関係課題の解法
- Authors: Jack Merullo, Carsten Eickhoff, Ellie Pavlick
- Abstract要約: 言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスクを解くための単純な計算機構を利用する場合があることを示す。
- 参考スコア(独自算出の注目度): 36.29933464955979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A primary criticism towards language models (LMs) is their inscrutability.
This paper presents evidence that, despite their size and complexity, LMs
sometimes exploit a simple computational mechanism to solve one-to-one
relational tasks (e.g., capital_of(Poland)=Warsaw). We investigate a range of
language model sizes (from 124M parameters to 176B parameters) in an in-context
learning setting, and find that for a variety of tasks (involving capital
cities, upper-casing, and past-tensing) a key part of the mechanism reduces to
a simple linear update typically applied by the feedforward (FFN) networks.
These updates also tend to promote the output of the relation in a
content-independent way (e.g., encoding Poland:Warsaw::China:Beijing),
revealing a predictable pattern that these models take in solving these tasks.
We further show that this mechanism is specific to tasks that require retrieval
from pretraining memory, rather than retrieval from local context. Our results
contribute to a growing body of work on the mechanistic interpretability of
LLMs, and offer reason to be optimistic that, despite the massive and
non-linear nature of the models, the strategies they ultimately use to solve
tasks can sometimes reduce to familiar and even intuitive algorithms.
- Abstract(参考訳): 言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスク( capital_of(poland)=warsaw など)を解決するための単純な計算機構を lms が利用することがあることを示す。
学習環境における言語モデルのサイズ(124mパラメーターから176bパラメーター)を調査し、様々なタスク(資本都市、上向き、過去型)において、機構の重要な部分がfeedforward(ffn)ネットワークで典型的に適用される単純な線形更新に還元されることを示す。
これらの更新はまた、コンテンツに依存しない方法で関係の出力を促進する傾向がある(例えば、ポーランド:ワルシャワ::china:beijingをエンコーディング)。
さらに, このメカニズムは, ローカルコンテキストからの検索ではなく, 事前学習メモリからの検索を必要とするタスクに特有であることを示した。
この結果は,LLMの機械的解釈可能性の向上に寄与し,モデルが大規模かつ非線形であるにもかかわらず,最終的に課題を解決するために使用する戦略が,慣れ親しんだアルゴリズムや直感的なアルゴリズムに還元されるという楽観的な理由を与える。
関連論文リスト
- Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Mitigating Social Biases in Language Models through Unlearning [16.166946020697203]
言語モデル(LM)におけるバイアスの緩和は、LMが広く展開されているため、重大な問題となっている。
そこで我々は,(1)デコーダモデルに適用したPCGU(Partitioned Contrastive Gradient Unlearning)と(2)タスクベクトルによる否定(Negation)の2つの非学習手法について検討する。
LLaMA-27Bでは、タスクベクトルによる否定はバイアススコアを11.8%削減する。
論文 参考訳(メタデータ) (2024-06-19T13:38:34Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Look Before You Leap: A Universal Emergent Decomposition of Retrieval
Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。
ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。
LMは内部的にモジュール方式で検索タスクを分解する。
論文 参考訳(メタデータ) (2023-12-13T18:36:43Z) - In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。
モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか?
GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。
この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文 参考訳(メタデータ) (2023-11-13T23:52:43Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。
私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。
トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-02-15T18:25:52Z) - Underspecification in Language Modeling Tasks: A Causality-Informed
Study of Gendered Pronoun Resolution [0.0]
本稿では,素因性相関の生成における不特定性の役割を説明するための簡単な因果機構を提案する。
その単純さにもかかわらず、我々の因果モデルは2つの軽量ブラックボックス評価手法の開発を直接的に知らせる。
論文 参考訳(メタデータ) (2022-09-30T23:10:11Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。