論文の概要: RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations
- arxiv url: http://arxiv.org/abs/2402.17700v2
- Date: Mon, 26 Aug 2024 19:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 19:39:16.735070
- Title: RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations
- Title(参考訳): RAVEL:分散言語モデル表現における解釈可能性の評価
- Authors: Jing Huang, Zhengxuan Wu, Christopher Potts, Mor Geva, Atticus Geiger,
- Abstract要約: 本稿では,解釈可能性法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVELを紹介する。
得られた概念的枠組みを用いて,マルチタスク分散アライメント探索の新しい手法を定義する。
Llama2-7Bをターゲット言語モデルとして、MDASはRAVELで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 38.79058788596755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Individual neurons participate in the representation of multiple high-level concepts. To what extent can different interpretability methods successfully disentangle these roles? To help address this question, we introduce RAVEL (Resolving Attribute-Value Entanglements in Language Models), a dataset that enables tightly controlled, quantitative comparisons between a variety of existing interpretability methods. We use the resulting conceptual framework to define the new method of Multi-task Distributed Alignment Search (MDAS), which allows us to find distributed representations satisfying multiple causal criteria. With Llama2-7B as the target language model, MDAS achieves state-of-the-art results on RAVEL, demonstrating the importance of going beyond neuron-level analyses to identify features distributed across activations. We release our benchmark at https://github.com/explanare/ravel.
- Abstract(参考訳): 個々のニューロンは複数のハイレベルな概念の表現に関与している。
どのようにして異なる解釈可能性法がこれらの役割を解き放つことができるのか?
この問題に対処するために,既存の様々な解釈可能性手法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVEL(Resolving Attribute-Value Entanglements in Language Models)を導入する。
提案手法は,マルチタスク分散アライメントサーチ (MDAS) の新たな手法を定義し,複数の因果基準を満たす分散表現の発見を可能にする。
Llama2-7Bをターゲット言語モデルとして、MDASはRAVELの最先端の成果を達成し、ニューロンレベルの解析を超えてアクティベーションに分散した特徴を特定することが重要であることを示した。
ベンチマークはhttps://github.com/explanare/ravel.comで公開しています。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z) - Multitasking Models are Robust to Structural Failure: A Neural Model for
Bilingual Cognitive Reserve [78.3500985535601]
マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。
実験の結果,バイリンガル言語モデルは様々なニューロン摂動下で高い性能を維持していることがわかった。
線形表現学習を数学的に解析することにより,このロバスト性を理論的に正当化する。
論文 参考訳(メタデータ) (2022-10-20T22:23:27Z) - Retrofitting Multilingual Sentence Embeddings with Abstract Meaning
Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。
原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。
実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-10-18T11:37:36Z) - Unsupervised Multimodal Language Representations using Convolutional
Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。
単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。
また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文 参考訳(メタデータ) (2021-10-06T18:28:07Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - An Investigation of Language Model Interpretability via Sentence Editing [5.492504126672887]
我々は、事前学習言語モデル(PLM)の解釈可能性をテストするテストベッドとして、文編集データセットを再使用した。
これにより、PLMの解釈可能性に関する一連の質問に対して、系統的な調査を行うことができる。
この調査は、例えば、一般的な理解とは対照的に、注意重みが人間の合理性とよく相関しているという新たな洞察を生み出す。
論文 参考訳(メタデータ) (2020-11-28T00:46:43Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。