論文の概要: Competence-Based Analysis of Language Models
- arxiv url: http://arxiv.org/abs/2303.00333v3
- Date: Tue, 7 Nov 2023 02:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:58:45.900311
- Title: Competence-Based Analysis of Language Models
- Title(参考訳): コンピテンスに基づく言語モデルの解析
- Authors: Adam Davies, Jize Jiang, ChengXiang Zhai
- Abstract要約: 大規模で事前訓練されたニューラルネットワークモデル(LLM)は、入力やアプリケーションコンテキストの小さな変更に対して、驚くほど脆弱である。
当社の枠組みであるCALMは,LCM能力の最初の定量的尺度である。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
- 参考スコア(独自算出の注目度): 24.09077801383941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of large, pretrained neural language models (LLMs)
on a variety of prompting tasks, these models can be alarmingly brittle to
small changes in inputs or application contexts. To better understand such
behavior and motivate the design of more robust LLMs, we provide a causal
formulation of linguistic competence in the context of LLMs and propose a
general framework to study and measure LLM competence. Our framework, CALM
(Competence-based Analysis of Language Models), establishes the first
quantitative measure of LLM competence, which we study by damaging models'
internal representations of various linguistic properties in the course of
performing various tasks using causal probing and evaluating models' alignment
under these interventions with a given causal model. We also develop a novel
approach for performing causal probing interventions using gradient-based
adversarial attacks, which can target a broader range of properties and
representations than existing techniques. We carry out a case study of CALM
using these interventions to analyze BERT and RoBERTa's competence across a
variety of lexical inference tasks, showing that the CALM framework and
competence metric can be valuable tools for explaining and predicting their
behavior across these tasks.
- Abstract(参考訳): さまざまなプロンプトタスクにおける大規模で事前訓練されたニューラルネットワークモデル(LLM)の成功にもかかわらず、これらのモデルは入力やアプリケーションコンテキストの小さな変更に対して驚くほど脆弱である。
このような振る舞いをよりよく理解し、より堅牢なLLMの設計を動機付けるために、LLMの文脈における言語能力の因果的定式化を提案し、LLM能力の研究と測定のための一般的な枠組みを提案する。
提案手法であるcalm(competence-based analysis of language models)は,様々な言語特性に関するモデルの内部表現を,与えられた因果モデルを用いて,因果探索を用いて様々なタスクを遂行する過程で損なうことにより,llm能力の定量的測定を初めて確立する。
また,既存の手法よりも広い範囲の属性や表現を対象とする,勾配に基づく逆攻撃を用いた因果探索を行うための新しい手法を開発した。
これらの介入を用いて、様々な語彙推論タスクにおけるbertとrobertaの能力を分析するケーススタディを実施し、これらのタスクをまたいだ行動の説明と予測に、calmフレームワークと能力指標が有用であることを示した。
関連論文リスト
- Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。
これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。
特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T22:10:52Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z) - Testing Pre-trained Language Models' Understanding of Distributivity via
Causal Mediation Analysis [13.07356367140208]
自然言語推論のための新しい診断データセットであるDistNLIを紹介する。
モデルの理解の範囲は、モデルのサイズと語彙のサイズと関連していることがわかった。
論文 参考訳(メタデータ) (2022-09-11T00:33:28Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。