論文の概要: RAVEL: Evaluating Interpretability Methods on Disentangling Language
Model Representations
- arxiv url: http://arxiv.org/abs/2402.17700v1
- Date: Tue, 27 Feb 2024 17:25:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:14:31.777788
- Title: RAVEL: Evaluating Interpretability Methods on Disentangling Language
Model Representations
- Title(参考訳): RAVEL:分散言語モデル表現における解釈可能性の評価
- Authors: Jing Huang, Zhengxuan Wu, Christopher Potts, Mor Geva, Atticus Geiger
- Abstract要約: 本稿では,解釈可能性法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVELを紹介する。
得られた概念的枠組みを用いて,マルチタスク分散アライメント探索の新しい手法を定義する。
Llama2-7Bをターゲット言語モデルとして、MDASはRAVELで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 41.616325271145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Individual neurons participate in the representation of multiple high-level
concepts. To what extent can different interpretability methods successfully
disentangle these roles? To help address this question, we introduce RAVEL
(Resolving Attribute-Value Entanglements in Language Models), a dataset that
enables tightly controlled, quantitative comparisons between a variety of
existing interpretability methods. We use the resulting conceptual framework to
define the new method of Multi-task Distributed Alignment Search (MDAS), which
allows us to find distributed representations satisfying multiple causal
criteria. With Llama2-7B as the target language model, MDAS achieves
state-of-the-art results on RAVEL, demonstrating the importance of going beyond
neuron-level analyses to identify features distributed across activations. We
release our benchmark at https://github.com/explanare/ravel.
- Abstract(参考訳): 個々のニューロンは複数のハイレベルな概念の表現に関与する。
どのようにして異なる解釈可能性法がこれらの役割を解き放つことができるのか?
この問題に対処するために,既存の様々な解釈可能性手法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVEL(Resolving Attribute-Value Entanglements in Language Models)を導入する。
提案手法は,マルチタスク分散アライメントサーチ(MDAS)の新たな手法を定義し,複数の因果基準を満たす分散表現の発見を可能にする。
Llama2-7Bをターゲット言語モデルとして、MDASはRAVELの最先端の成果を達成し、ニューロンレベルの解析を超えてアクティベーションに分散した特徴を特定することが重要であることを示した。
ベンチマークはhttps://github.com/explanare/ravelでリリースしています。
関連論文リスト
- Extracting Multi-valued Relations from Language Models [36.944060044138304]
我々は, 潜在言語表現を解析し, 実体化された多目的関係知識を得る可能性について検討する。
候補オブジェクトのランク付けには,既存のプロンプト技術を評価し,ドメイン知識を取り入れた新しい手法を提案する。
選択法のうち、学習された関係性特異しきい値よりも高い確率で対象を選択すると、49.5%のF1スコアが得られる。
論文 参考訳(メタデータ) (2023-07-06T16:48:32Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement
Learning [77.34726150561087]
In-Context Learning (RetICL) のための検索式を提案する。
我々は、マルコフ決定プロセスとして逐次サンプル選択の問題を定義し、LSTMを用いてサンプルレトリバーモデルを設計し、近似ポリシー最適化を用いてそれを訓練する。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Multitasking Models are Robust to Structural Failure: A Neural Model for
Bilingual Cognitive Reserve [78.3500985535601]
マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。
実験の結果,バイリンガル言語モデルは様々なニューロン摂動下で高い性能を維持していることがわかった。
線形表現学習を数学的に解析することにより,このロバスト性を理論的に正当化する。
論文 参考訳(メタデータ) (2022-10-20T22:23:27Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - An Investigation of Language Model Interpretability via Sentence Editing [5.492504126672887]
我々は、事前学習言語モデル(PLM)の解釈可能性をテストするテストベッドとして、文編集データセットを再使用した。
これにより、PLMの解釈可能性に関する一連の質問に対して、系統的な調査を行うことができる。
この調査は、例えば、一般的な理解とは対照的に、注意重みが人間の合理性とよく相関しているという新たな洞察を生み出す。
論文 参考訳(メタデータ) (2020-11-28T00:46:43Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。