論文の概要: Interpreting convolutional networks trained on textual data
- arxiv url: http://arxiv.org/abs/2010.13585v1
- Date: Tue, 20 Oct 2020 20:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 05:34:29.763022
- Title: Interpreting convolutional networks trained on textual data
- Title(参考訳): テキストデータに基づく畳み込みネットワークの解釈
- Authors: Reza Marzban, Christopher John Crick
- Abstract要約: 我々は,テキストデータに基づく畳み込みモデルを訓練し,そのフィルタ値を用いてモデルのグローバル論理を解析する。
モデルロジックのコーパスで最も重要な単語を見つけ、残りの単語を取り除きます。
5%以上の重要な単語でトレーニングされた新しいモデルは、トレーニング時間を半分以上削減しながら、オリジナルのモデルと同じパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been many advances in the artificial intelligence field due to the
emergence of deep learning. In almost all sub-fields, artificial neural
networks have reached or exceeded human-level performance. However, most of the
models are not interpretable. As a result, it is hard to trust their decisions,
especially in life and death scenarios. In recent years, there has been a
movement toward creating explainable artificial intelligence, but most work to
date has concentrated on image processing models, as it is easier for humans to
perceive visual patterns. There has been little work in other fields like
natural language processing. In this paper, we train a convolutional model on
textual data and analyze the global logic of the model by studying its filter
values. In the end, we find the most important words in our corpus to our
models logic and remove the rest (95%). New models trained on just the 5% most
important words can achieve the same performance as the original model while
reducing training time by more than half. Approaches such as this will help us
to understand NLP models, explain their decisions according to their word
choices, and improve them by finding blind spots and biases.
- Abstract(参考訳): ディープラーニングの出現により、人工知能分野には多くの進歩があった。
ほぼ全てのサブフィールドにおいて、ニューラルネットワークは人間レベルの性能に達している。
しかし、ほとんどのモデルは解釈できない。
その結果、特に生命と死のシナリオにおいて、彼らの決定を信頼することは困難である。
近年では、説明可能な人工知能を開発する動きがあるが、これまでほとんどの作業は画像処理モデルに集中しており、人間の視覚パターンの認識が容易になっている。
自然言語処理のような他の分野ではほとんど仕事がなかった。
本稿では,テキストデータに基づく畳み込みモデルを訓練し,そのフィルタ値を用いてモデルのグローバル論理を解析する。
結局のところ、私たちのモデル論理のコーパスで最も重要な単語を見つけ、残りの単語を取り除きます(95%)。
5%以上の重要な単語でトレーニングされた新しいモデルは、トレーニング時間を半分以上削減しながら、オリジナルのモデルと同じパフォーマンスを達成することができる。
このようなアプローチは、NLPモデルを理解し、単語の選択に従ってその決定を説明し、盲点やバイアスを見つけることによって改善する上で役立ちます。
関連論文リスト
- Longer Fixations, More Computation: Gaze-Guided Recurrent Neural
Networks [12.57650361978445]
人間はさまざまなペースでテキストを読み、機械学習モデルはそれぞれのトークンを同じように扱う。
本稿では,この直感を固定誘導並列RNNやレイヤを用いた新しいモデルに変換する。
興味深いことに、ニューラルネットワークによって予測される固定期間は、人間の固定と多少似ている。
論文 参考訳(メタデータ) (2023-10-31T21:32:11Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。
我々のモデルでは、ほとんどの接続は学習後に決定論的になる。
本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文 参考訳(メタデータ) (2023-09-08T03:58:05Z) - Why can neural language models solve next-word prediction? A
mathematical perspective [53.807657273043446]
本研究では,英語文の実例をモデル化するための形式言語群について検討する。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Sentence Level Curriculum Learning for Improved Neural Conversational
Models [0.0]
我々は、人間と会話するための機械知能の設計方法を研究する。
私たちのゴールは、各セグメントのコーパスが長い文対で構成されているように、トレーニングをセグメントに分けることです。
これは、人間の学習の望ましい"ビルドアップ"コンポーネントを模倣します。
論文 参考訳(メタデータ) (2023-05-15T17:28:59Z) - Effective End-to-End Vision Language Pretraining with Semantic Visual
Loss [58.642954383282216]
現在の視覚言語事前学習モデルは、物体検出器から抽出された領域視覚特徴を用いた手法によって支配されている。
3種類の視覚的損失を導入し、より高速な収束と微調整精度の向上を実現した。
リージョン機能モデルと比較して、私たちのエンドツーエンドモデルは、下流タスクで同様のあるいはより良いパフォーマンスを実現し、推論中に10倍以上高速に動作します。
論文 参考訳(メタデータ) (2023-01-18T00:22:49Z) - Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language
Understanding [82.46024259137823]
幅広いタスクに対するクロスモデル比較損失を提案する。
3つの異なるNLUタスクから14のデータセットに対する広範な実験により比較損失の普遍的有効性を示す。
論文 参考訳(メタデータ) (2023-01-10T03:04:27Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Visualizing and Explaining Language Models [0.0]
自然言語処理はコンピュータビジョンの後、人工知能の第2の分野となった。
本稿では,NLPビジュアライゼーションにおいて最もポピュラーなDeep Learningの手法について紹介し,解釈可能性と説明可能性に着目した。
論文 参考訳(メタデータ) (2022-04-30T17:23:33Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。