論文の概要: Interactively Generating Explanations for Transformer Language Models
- arxiv url: http://arxiv.org/abs/2110.02058v3
- Date: Thu, 7 Oct 2021 08:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-10 16:57:23.190418
- Title: Interactively Generating Explanations for Transformer Language Models
- Title(参考訳): 変換言語モデルのための対話型説明生成
- Authors: Patrick Schramowski, Felix Friedrich, Christopher Tauchmann, and
Kristian Kersting
- Abstract要約: トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。
最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。
モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
- 参考スコア(独自算出の注目度): 14.306470205426526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models are state-of-the-art in a multitude of NLP tasks.
Despite these successes, their opaqueness remains problematic. Recent methods
aiming to provide interpretability and explainability to black-box models
primarily focus on post-hoc explanations of (sometimes spurious) input-output
correlations. Instead, we emphasize using prototype networks directly
incorporated into the model architecture and hence explain the reasoning
process behind the network's decisions. Moreover, while our architecture
performs on par with several language models, it enables one to learn from user
interactions. This not only offers a better understanding of language models
but uses human capabilities to incorporate knowledge outside of the rigid range
of purely data-driven approaches.
- Abstract(参考訳): トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。
これらの成功にもかかわらず、不透明さは依然として問題である。
ブラックボックスモデルへの解釈可能性と説明可能性の提供を目的とした最近の手法は、主に入力-出力相関のポストホックな説明に焦点を当てている。
その代わり、モデルアーキテクチャに直接組み込まれたプロトタイプネットワークの使用を強調し、ネットワークの決定の背後にある推論プロセスを説明する。
さらに,アーキテクチャは複数の言語モデルと同等に機能するが,ユーザインタラクションから学習することができる。
これは言語モデルの理解を深めるだけでなく、純粋データ駆動アプローチの厳格な範囲外の知識を取り込むために人間の能力を利用する。
関連論文リスト
- IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。
このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。
大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-23T08:10:13Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Fine-Tune Language Models as Multi-Modal Differential Equation Solvers [14.181842691371935]
本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。
特に,近年の大規模言語モデルの成功からインスピレーションを得て,演算子に関する人間の知識を統合するために「カプセル」の使用を提案する。
論文 参考訳(メタデータ) (2023-08-09T16:44:25Z) - Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。
この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。
事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文 参考訳(メタデータ) (2022-12-30T16:24:10Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。