論文の概要: minicons: Enabling Flexible Behavioral and Representational Analyses of
Transformer Language Models
- arxiv url: http://arxiv.org/abs/2203.13112v1
- Date: Thu, 24 Mar 2022 15:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 16:41:51.651857
- Title: minicons: Enabling Flexible Behavioral and Representational Analyses of
Transformer Language Models
- Title(参考訳): minicons: トランスフォーマー言語モデルの柔軟な動作および表現分析を可能にする
- Authors: Kanishka Misra
- Abstract要約: miniconsはオープンソースライブラリで、トランスフォーマーベースの言語モデルの振る舞い解析と表現解析のための標準APIを提供する。
ミニコンは、(1)予測レベルで、(2)単語/文レベルの確率を効率的に抽出する機能を提供し、(2)表現レベルでは、単語/フレーズレベルのベクトルの効率的な抽出を容易にすることによって、2つのレベルで分析方法を適用することができる。
- 参考スコア(独自算出の注目度): 0.20305676256390934
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present minicons, an open source library that provides a standard API for
researchers interested in conducting behavioral and representational analyses
of transformer-based language models (LMs). Specifically, minicons enables
researchers to apply analysis methods at two levels: (1) at the prediction
level -- by providing functions to efficiently extract word/sentence level
probabilities; and (2) at the representational level -- by also facilitating
efficient extraction of word/phrase level vectors from one or more layers. In
this paper, we describe the library and apply it to two motivating case
studies: One focusing on the learning dynamics of the BERT architecture on
relative grammatical judgments, and the other on benchmarking 23 different LMs
on zero-shot abductive reasoning. minicons is available at
https://github.com/kanishkamisra/minicons
- Abstract(参考訳): トランスフォーマーベースの言語モデル(lms)の動作および表現分析に興味のある研究者に対して,標準apiを提供するオープンソースライブラリであるminiconsを提案する。
具体的には,(1)予測レベルにおいて,(1)単語/文レベルの確率を効率的に抽出する機能を提供すること,(2)表現レベルにおいて,(2)単語/フレーズレベルのベクトルを1つ以上の層から効率的に抽出すること,という2つのレベルで分析手法を適用することができる。
本稿では,このライブラリを2つのモチベーションケーススタディに適用する。1つは,相対的な文法的判断に基づくBERTアーキテクチャの学習力学,もう1つはゼロショット帰納的推論に基づく23種類のLMのベンチマークに焦点をあてる。
miniconsはhttps://github.com/kanishkamisra/miniconsで入手できる。
関連論文リスト
- Probing Representations for Document-level Event Extraction [30.523959637364484]
この研究は、文書レベルの情報抽出で学んだ表現に探索パラダイムを適用した最初のものである。
文書レベルのイベント抽出に関連するサーフェス,セマンティクス,イベント理解機能を分析するために,8つの埋め込みプローブを設計した。
これらのモデルからトレーニングされたエンコーダは、わずかに引数の検出とラベリングを改善することができるが、イベントレベルのタスクをわずかに強化するだけである。
論文 参考訳(メタデータ) (2023-10-23T19:33:04Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - OSIC: A New One-Stage Image Captioner Coined [38.46732302316068]
動的多視点学習を用いたワンステージ画像キャプタ(OSIC)を提案する。
リッチな特徴を得るためには、Swin Transformerを使ってマルチレベルの特徴を計算する。
キャプション用エンコーダのグローバルなモデリングを強化するために,新しい2次元精製モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-04T08:50:09Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - R2D2: Recursive Transformer based on Differentiable Tree for
Interpretable Hierarchical Language Modeling [36.61173494449218]
本稿では, 構成過程をエミュレートするために, 微分可能なCKYスタイルのバイナリツリーに基づくモデルを提案する。
我々は、このアーキテクチャに対して双方向言語モデル事前学習の目的を拡張し、左右の抽象ノードを与えられた各単語を予測しようと試みる。
また,本手法を大規模化するために,合成ステップの線形数だけを符号化する効率的な伐採木誘導アルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-07-02T11:00:46Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z) - Captum: A unified and generic model interpretability library for PyTorch [49.72749684393332]
我々は,PyTorch用の新しい,統一されたオープンソースモデル解釈可能性ライブラリを紹介する。
このライブラリには、多くの勾配と摂動に基づく属性アルゴリズムの汎用的な実装が含まれている。
分類モデルと非分類モデルの両方に使用できる。
論文 参考訳(メタデータ) (2020-09-16T18:57:57Z) - Exploring Explainable Selection to Control Abstractive Summarization [51.74889133688111]
説明可能性を重視した新しいフレームワークを開発する。
新しいペアワイズ行列は、文の相互作用、中心性、属性スコアをキャプチャする。
コンストラクタ内の文分割アテンション機構は、最終要約が所望のコンテンツを強調することを保証する。
論文 参考訳(メタデータ) (2020-04-24T14:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。