Fugu-MT 論文翻訳(概要): A Mechanism for Solving Relational Tasks in Transformer Language Models

論文の概要: A Mechanism for Solving Relational Tasks in Transformer Language Models

arxiv url: http://arxiv.org/abs/2305.16130v2
Date: Thu, 12 Oct 2023 21:43:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-16 17:47:52.184860
Title: A Mechanism for Solving Relational Tasks in Transformer Language Models
Title（参考訳）: トランスフォーマー言語モデルにおける関係課題の解法
Authors: Jack Merullo, Carsten Eickhoff, Ellie Pavlick
Abstract要約: 言語モデル(LM)に対する主要な批判は、その調査性である。本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスクを解くための単純な計算機構を利用する場合があることを示す。
参考スコア（独自算出の注目度）: 36.29933464955979
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A primary criticism towards language models (LMs) is their inscrutability. This paper presents evidence that, despite their size and complexity, LMs sometimes exploit a simple computational mechanism to solve one-to-one relational tasks (e.g., capital_of(Poland)=Warsaw). We investigate a range of language model sizes (from 124M parameters to 176B parameters) in an in-context learning setting, and find that for a variety of tasks (involving capital cities, upper-casing, and past-tensing) a key part of the mechanism reduces to a simple linear update typically applied by the feedforward (FFN) networks. These updates also tend to promote the output of the relation in a content-independent way (e.g., encoding Poland:Warsaw::China:Beijing), revealing a predictable pattern that these models take in solving these tasks. We further show that this mechanism is specific to tasks that require retrieval from pretraining memory, rather than retrieval from local context. Our results contribute to a growing body of work on the mechanistic interpretability of LLMs, and offer reason to be optimistic that, despite the massive and non-linear nature of the models, the strategies they ultimately use to solve tasks can sometimes reduce to familiar and even intuitive algorithms.
Abstract（参考訳）: 言語モデル(LM)に対する主要な批判は、その調査性である。本稿では,そのサイズと複雑さにもかかわらず,一対一のリレーショナルタスク( capital_of(poland)=warsaw など)を解決するための単純な計算機構を lms が利用することがあることを示す。学習環境における言語モデルのサイズ(124mパラメーターから176bパラメーター)を調査し、様々なタスク(資本都市、上向き、過去型)において、機構の重要な部分がfeedforward(ffn)ネットワークで典型的に適用される単純な線形更新に還元されることを示す。これらの更新はまた、コンテンツに依存しない方法で関係の出力を促進する傾向がある(例えば、ポーランド:ワルシャワ::china:beijingをエンコーディング)。さらに, このメカニズムは, ローカルコンテキストからの検索ではなく, 事前学習メモリからの検索を必要とするタスクに特有であることを示した。この結果は,LLMの機械的解釈可能性の向上に寄与し,モデルが大規模かつ非線形であるにもかかわらず,最終的に課題を解決するために使用する戦略が,慣れ親しんだアルゴリズムや直感的なアルゴリズムに還元されるという楽観的な理由を与える。

関連論文リスト

The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
Self-Steering Language Models [113.96916935955842]
DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
論文参考訳（メタデータ） (2025-04-09T17:54:22Z)
DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文参考訳（メタデータ） (2025-02-25T16:44:10Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文参考訳（メタデータ） (2024-10-01T04:20:14Z)
Mitigating Social Biases in Language Models through Unlearning [16.166946020697203]
言語モデル(LM)におけるバイアスの緩和は、LMが広く展開されているため、重大な問題となっている。そこで我々は,(1)デコーダモデルに適用したPCGU(Partitioned Contrastive Gradient Unlearning)と(2)タスクベクトルによる否定(Negation)の2つの非学習手法について検討する。 LLaMA-27Bでは、タスクベクトルによる否定はバイアススコアを11.8%削減する。
論文参考訳（メタデータ） (2024-06-19T13:38:34Z)
In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文参考訳（メタデータ） (2024-01-23T18:59:21Z)
Look Before You Leap: A Universal Emergent Decomposition of Retrieval Tasks in Language Models [58.57279229066477]
本研究では,言語モデル(LM)が様々な状況下での検索タスクをどのように解決するかを検討する。 ORIONは6つのドメインにまたがる構造化された検索タスクの集合である。 LMは内部的にモジュール方式で検索タスクを分解する。
論文参考訳（メタデータ） (2023-12-13T18:36:43Z)
In-context Learning Generalizes, But Not Always Robustly: The Case of Syntax [36.98247762224868]
In-context Learning (ICL)は、現在、大規模言語モデル(LLM)の新しいタスクを教える一般的な方法である。モデルは、文脈によって定義されたタスクの基盤構造を推論するか、あるいは、同じ分散例にのみ一般化する表面一般化に依存するか? GPT, PaLM, および Llama 2 ファミリーのモデルを用いた実験では, LM 間で大きなばらつきが認められた。この分散は、モデルサイズよりも事前学習コーパスと監督方法の構成によりより説明される。
論文参考訳（メタデータ） (2023-11-13T23:52:43Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文参考訳（メタデータ） (2023-05-15T17:15:40Z)
Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (2023-02-15T18:25:52Z)
Underspecification in Language Modeling Tasks: A Causality-Informed Study of Gendered Pronoun Resolution [0.0]
本稿では,素因性相関の生成における不特定性の役割を説明するための簡単な因果機構を提案する。その単純さにもかかわらず、我々の因果モデルは2つの軽量ブラックボックス評価手法の開発を直接的に知らせる。
論文参考訳（メタデータ） (2022-09-30T23:10:11Z)
Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文参考訳（メタデータ） (2022-02-03T18:55:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。