論文の概要: Competence-Based Analysis of Language Models
- arxiv url: http://arxiv.org/abs/2303.00333v3
- Date: Tue, 7 Nov 2023 02:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:58:45.900311
- Title: Competence-Based Analysis of Language Models
- Title(参考訳): コンピテンスに基づく言語モデルの解析
- Authors: Adam Davies, Jize Jiang, ChengXiang Zhai
- Abstract要約: 大規模で事前訓練されたニューラルネットワークモデル(LLM)は、入力やアプリケーションコンテキストの小さな変更に対して、驚くほど脆弱である。
当社の枠組みであるCALMは,LCM能力の最初の定量的尺度である。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
- 参考スコア(独自算出の注目度): 24.09077801383941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of large, pretrained neural language models (LLMs)
on a variety of prompting tasks, these models can be alarmingly brittle to
small changes in inputs or application contexts. To better understand such
behavior and motivate the design of more robust LLMs, we provide a causal
formulation of linguistic competence in the context of LLMs and propose a
general framework to study and measure LLM competence. Our framework, CALM
(Competence-based Analysis of Language Models), establishes the first
quantitative measure of LLM competence, which we study by damaging models'
internal representations of various linguistic properties in the course of
performing various tasks using causal probing and evaluating models' alignment
under these interventions with a given causal model. We also develop a novel
approach for performing causal probing interventions using gradient-based
adversarial attacks, which can target a broader range of properties and
representations than existing techniques. We carry out a case study of CALM
using these interventions to analyze BERT and RoBERTa's competence across a
variety of lexical inference tasks, showing that the CALM framework and
competence metric can be valuable tools for explaining and predicting their
behavior across these tasks.
- Abstract(参考訳): さまざまなプロンプトタスクにおける大規模で事前訓練されたニューラルネットワークモデル(LLM)の成功にもかかわらず、これらのモデルは入力やアプリケーションコンテキストの小さな変更に対して驚くほど脆弱である。
このような振る舞いをよりよく理解し、より堅牢なLLMの設計を動機付けるために、LLMの文脈における言語能力の因果的定式化を提案し、LLM能力の研究と測定のための一般的な枠組みを提案する。
提案手法であるcalm(competence-based analysis of language models)は,様々な言語特性に関するモデルの内部表現を,与えられた因果モデルを用いて,因果探索を用いて様々なタスクを遂行する過程で損なうことにより,llm能力の定量的測定を初めて確立する。
また,既存の手法よりも広い範囲の属性や表現を対象とする,勾配に基づく逆攻撃を用いた因果探索を行うための新しい手法を開発した。
これらの介入を用いて、様々な語彙推論タスクにおけるbertとrobertaの能力を分析するケーススタディを実施し、これらのタスクをまたいだ行動の説明と予測に、calmフレームワークと能力指標が有用であることを示した。
関連論文リスト
- Investigating the Zone of Proximal Development of Language Models for In-Context Learning [59.91708683601029]
大規模言語モデル(LLM)の文脈内学習(ICL)の振る舞いを分析するための学習分析フレームワークを提案する。
我々は,各例のモデル性能に基づいて,LLMのZPDを測定することにより,ZPD理論をICLに適用する。
本研究はICLの複雑な多面的動作を明らかにし,この手法の理解と活用に関する新たな知見を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:36:21Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - An LLM Feature-based Framework for Dialogue Constructiveness Assessment [8.87747076871578]
対話構築性評価に関する研究は、(i)個人が特定の行動をとること、議論に勝つこと、視点を変えること、またはオープンマインドネスを広げること、および(ii)そのような事例に対する対話に続く構成性の結果を予測することに焦点を当てている。
これらの目的は、解釈可能な特徴ベースモデルか、事前訓練された言語モデルのようなニューラルモデルのいずれかをトレーニングすることで達成できる。
特徴ベースとニューラルアプローチの強みを組み合わせた対話構築性評価のためのLLM特徴ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T22:10:52Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Large Linguistic Models: Investigating LLMs' metalinguistic abilities [1.0923877073891446]
我々は,OpenAIのo1が,構文木の作成や音韻的一般化に関わるタスクにおいて,他のモデルよりも大幅に優れていることを示す。
OpenAI o1の他のモデルに対する独特な優位性は、モデルのチェーン・オブ・シント機構によってもたらされる可能性があると推測する。
論文 参考訳(メタデータ) (2023-05-01T17:09:33Z) - Comparative layer-wise analysis of self-supervised speech models [29.258085176788097]
標準相関解析(CCA)に基づく軽量解析ツールを用いて、各層に符号化された音響・音声・単語レベルの特性を測定する。
これらの特性は、モデルによって異なる層間で進化し、その変動は事前学習対象の選択に関係している。
CCAのトレンドは、下流タスクの関心層を選択するための信頼性の高いガイダンスを提供し、シングルレイヤのパフォーマンスがすべてのレイヤで一致または改善されることに気付き、事前学習されたモデルをより効率的に使用するための意味を示唆している。
論文 参考訳(メタデータ) (2022-11-08T00:59:05Z) - Testing Pre-trained Language Models' Understanding of Distributivity via
Causal Mediation Analysis [13.07356367140208]
自然言語推論のための新しい診断データセットであるDistNLIを紹介する。
モデルの理解の範囲は、モデルのサイズと語彙のサイズと関連していることがわかった。
論文 参考訳(メタデータ) (2022-09-11T00:33:28Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。