Fugu-MT 論文翻訳(概要): RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations

論文の概要: RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations

arxiv url: http://arxiv.org/abs/2402.17700v2
Date: Mon, 26 Aug 2024 19:26:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 19:39:16.735070
Title: RAVEL: Evaluating Interpretability Methods on Disentangling Language Model Representations
Title（参考訳）: RAVEL:分散言語モデル表現における解釈可能性の評価
Authors: Jing Huang, Zhengxuan Wu, Christopher Potts, Mor Geva, Atticus Geiger,
Abstract要約: 本稿では,解釈可能性法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVELを紹介する。得られた概念的枠組みを用いて,マルチタスク分散アライメント探索の新しい手法を定義する。 Llama2-7Bをターゲット言語モデルとして、MDASはRAVELで最先端の結果を得る。
参考スコア（独自算出の注目度）: 38.79058788596755
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Individual neurons participate in the representation of multiple high-level concepts. To what extent can different interpretability methods successfully disentangle these roles? To help address this question, we introduce RAVEL (Resolving Attribute-Value Entanglements in Language Models), a dataset that enables tightly controlled, quantitative comparisons between a variety of existing interpretability methods. We use the resulting conceptual framework to define the new method of Multi-task Distributed Alignment Search (MDAS), which allows us to find distributed representations satisfying multiple causal criteria. With Llama2-7B as the target language model, MDAS achieves state-of-the-art results on RAVEL, demonstrating the importance of going beyond neuron-level analyses to identify features distributed across activations. We release our benchmark at https://github.com/explanare/ravel.
Abstract（参考訳）: 個々のニューロンは複数のハイレベルな概念の表現に関与している。どのようにして異なる解釈可能性法がこれらの役割を解き放つことができるのか? この問題に対処するために,既存の様々な解釈可能性手法間の厳密に制御された定量的な比較を可能にするデータセットであるRAVEL(Resolving Attribute-Value Entanglements in Language Models)を導入する。提案手法は,マルチタスク分散アライメントサーチ (MDAS) の新たな手法を定義し,複数の因果基準を満たす分散表現の発見を可能にする。 Llama2-7Bをターゲット言語モデルとして、MDASはRAVELの最先端の成果を達成し、ニューロンレベルの解析を超えてアクティベーションに分散した特徴を特定することが重要であることを示した。ベンチマークはhttps://github.com/explanare/ravel.comで公開しています。

関連論文リスト

Multiple Choice Learning of Low Rank Adapters for Language Modeling [40.380297530862656]
本稿では,言語モデルにおける次トーケン予測を拡張する学習手法であるLoRA-MCLを提案する。本研究では,実環境における視覚的・音声的キャプションタスクについて広範な実験を行い,本手法が生成した出力の多様性と関連性を実証する。
論文参考訳（メタデータ） (2025-07-14T16:00:51Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
The Multi-Faceted Monosemanticity in Multimodal Representations [42.64636740703632]
我々は、機能単意味性の最近の進歩を活用して、深いマルチモーダルモデルから解釈可能な特徴を抽出する。以上の結果から,この分類は,異なるモダリティの認知的理解と密接に一致していることが明らかとなった。これらの結果は、タスクに依存しない解釈可能性ツールを備えた大規模マルチモーダルモデルが、重要な接続と異なるモダリティの区別に関する貴重な洞察を提供することを示している。
論文参考訳（メタデータ） (2025-02-16T14:51:07Z)
The Complexity of Learning Sparse Superposed Features with Feedback [0.9838799448847586]
モデルの基本となる学習特徴がエージェントからのフィードバックによって効率的に検索できるかどうかを検討する。スパース設定で特徴行列を学習する際のフィードバックの複雑さを解析する。この結果は,エージェントがアクティベーションを構築し,スパースシナリオにおいて強い上限を示すことを許された場合に,厳密な境界を確立する。
論文参考訳（メタデータ） (2025-02-08T01:54:23Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文参考訳（メタデータ） (2024-06-11T16:26:18Z)
Multitasking Models are Robust to Structural Failure: A Neural Model for Bilingual Cognitive Reserve [78.3500985535601]
マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。実験の結果,バイリンガル言語モデルは様々なニューロン摂動下で高い性能を維持していることがわかった。線形表現学習を数学的に解析することにより,このロバスト性を理論的に正当化する。
論文参考訳（メタデータ） (2022-10-20T22:23:27Z)
Retrofitting Multilingual Sentence Embeddings with Abstract Meaning Representation [70.58243648754507]
抽象的意味表現(AMR)を用いた既存の多言語文の埋め込みを改善する新しい手法を提案する。原文入力と比較すると、AMRは文の中核概念と関係を明確かつ曖昧に表す構造的意味表現である。実験結果から,多言語文をAMRで埋め込むと,意味的類似性と伝達タスクの両方において,最先端の性能が向上することがわかった。
論文参考訳（メタデータ） (2022-10-18T11:37:36Z)
Unsupervised Multimodal Language Representations using Convolutional Autoencoders [5.464072883537924]
本稿では,教師なしマルチモーダル言語表現の抽出について提案する。単語レベルのアライメントされたマルチモーダルシーケンスを2次元行列にマップし、畳み込みオートエンコーダを用いて複数のデータセットを組み合わせることで埋め込みを学習する。また,本手法は非常に軽量で,他のタスクに容易に一般化でき,少ない性能低下とほぼ同じ数のパラメータを持つ未確認データが得られることを示した。
論文参考訳（メタデータ） (2021-10-06T18:28:07Z)
Incorporating Linguistic Knowledge for Abstractive Multi-document Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。依存関係情報を言語誘導型注意機構に処理する。言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文参考訳（メタデータ） (2021-09-23T08:13:35Z)
An Investigation of Language Model Interpretability via Sentence Editing [5.492504126672887]
我々は、事前学習言語モデル(PLM)の解釈可能性をテストするテストベッドとして、文編集データセットを再使用した。これにより、PLMの解釈可能性に関する一連の質問に対して、系統的な調査を行うことができる。この調査は、例えば、一般的な理解とは対照的に、注意重みが人間の合理性とよく相関しているという新たな洞察を生み出す。
論文参考訳（メタデータ） (2020-11-28T00:46:43Z)
Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文参考訳（メタデータ） (2020-11-13T10:53:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。