論文の概要: Competence-Based Analysis of Language Models
- arxiv url: http://arxiv.org/abs/2303.00333v3
- Date: Tue, 7 Nov 2023 02:33:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:58:45.900311
- Title: Competence-Based Analysis of Language Models
- Title(参考訳): コンピテンスに基づく言語モデルの解析
- Authors: Adam Davies, Jize Jiang, ChengXiang Zhai
- Abstract要約: 大規模で事前訓練されたニューラルネットワークモデル(LLM)は、入力やアプリケーションコンテキストの小さな変更に対して、驚くほど脆弱である。
当社の枠組みであるCALMは,LCM能力の最初の定量的尺度である。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
- 参考スコア(独自算出の注目度): 24.09077801383941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent success of large, pretrained neural language models (LLMs)
on a variety of prompting tasks, these models can be alarmingly brittle to
small changes in inputs or application contexts. To better understand such
behavior and motivate the design of more robust LLMs, we provide a causal
formulation of linguistic competence in the context of LLMs and propose a
general framework to study and measure LLM competence. Our framework, CALM
(Competence-based Analysis of Language Models), establishes the first
quantitative measure of LLM competence, which we study by damaging models'
internal representations of various linguistic properties in the course of
performing various tasks using causal probing and evaluating models' alignment
under these interventions with a given causal model. We also develop a novel
approach for performing causal probing interventions using gradient-based
adversarial attacks, which can target a broader range of properties and
representations than existing techniques. We carry out a case study of CALM
using these interventions to analyze BERT and RoBERTa's competence across a
variety of lexical inference tasks, showing that the CALM framework and
competence metric can be valuable tools for explaining and predicting their
behavior across these tasks.
- Abstract(参考訳): さまざまなプロンプトタスクにおける大規模で事前訓練されたニューラルネットワークモデル(LLM)の成功にもかかわらず、これらのモデルは入力やアプリケーションコンテキストの小さな変更に対して驚くほど脆弱である。
このような振る舞いをよりよく理解し、より堅牢なLLMの設計を動機付けるために、LLMの文脈における言語能力の因果的定式化を提案し、LLM能力の研究と測定のための一般的な枠組みを提案する。
提案手法であるcalm(competence-based analysis of language models)は,様々な言語特性に関するモデルの内部表現を,与えられた因果モデルを用いて,因果探索を用いて様々なタスクを遂行する過程で損なうことにより,llm能力の定量的測定を初めて確立する。
また,既存の手法よりも広い範囲の属性や表現を対象とする,勾配に基づく逆攻撃を用いた因果探索を行うための新しい手法を開発した。
これらの介入を用いて、様々な語彙推論タスクにおけるbertとrobertaの能力を分析するケーススタディを実施し、これらのタスクをまたいだ行動の説明と予測に、calmフレームワークと能力指標が有用であることを示した。
関連論文リスト
- Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [76.30313058201182]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Emergent Linguistic Structures in Neural Networks are Fragile [20.692540987792732]
大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すと報告されている。
言語表現の一貫性と堅牢性を評価するための枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-31T15:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。