Fugu-MT 論文翻訳(概要): Interactively Generating Explanations for Transformer Language Models

論文の概要: Interactively Generating Explanations for Transformer Language Models

arxiv url: http://arxiv.org/abs/2110.02058v3
Date: Thu, 7 Oct 2021 08:00:10 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-10 16:57:23.190418
Title: Interactively Generating Explanations for Transformer Language Models
Title（参考訳）: 変換言語モデルのための対話型説明生成
Authors: Patrick Schramowski, Felix Friedrich, Christopher Tauchmann, and Kristian Kersting
Abstract要約: トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。最近の手法はブラックボックスモデルに対する解釈可能性と説明可能性を提供することを目的としている。モデルアーキテクチャに直接組み込まれたプロトタイプネットワークを使うことを強調した。
参考スコア（独自算出の注目度）: 14.306470205426526
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer language models are state-of-the-art in a multitude of NLP tasks. Despite these successes, their opaqueness remains problematic. Recent methods aiming to provide interpretability and explainability to black-box models primarily focus on post-hoc explanations of (sometimes spurious) input-output correlations. Instead, we emphasize using prototype networks directly incorporated into the model architecture and hence explain the reasoning process behind the network's decisions. Moreover, while our architecture performs on par with several language models, it enables one to learn from user interactions. This not only offers a better understanding of language models but uses human capabilities to incorporate knowledge outside of the rigid range of purely data-driven approaches.
Abstract（参考訳）: トランスフォーマー言語モデルは、多くのNLPタスクにおいて最先端である。これらの成功にもかかわらず、不透明さは依然として問題である。ブラックボックスモデルへの解釈可能性と説明可能性の提供を目的とした最近の手法は、主に入力-出力相関のポストホックな説明に焦点を当てている。その代わり、モデルアーキテクチャに直接組み込まれたプロトタイプネットワークの使用を強調し、ネットワークの決定の背後にある推論プロセスを説明する。さらに,アーキテクチャは複数の言語モデルと同等に機能するが,ユーザインタラクションから学習することができる。これは言語モデルの理解を深めるだけでなく、純粋データ駆動アプローチの厳格な範囲外の知識を取り込むために人間の能力を利用する。

関連論文リスト

From Text to Graph: Leveraging Graph Neural Networks for Enhanced Explainability in NLP [3.864700176441583]
本研究では,自然言語処理タスクにおける説明可能性を実現するための新しい手法を提案する。自動的に文をグラフに変換し、ノードや関係を通じて意味を維持する。実験は、与えられた分類のためのテキスト構造の中で最も重要なコンポーネントを決定するための有望な結果をもたらした。
論文参考訳（メタデータ） (2025-04-02T18:55:58Z)
LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文参考訳（メタデータ） (2024-12-11T18:59:33Z)
IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文参考訳（メタデータ） (2024-08-23T08:10:13Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文参考訳（メタデータ） (2024-04-03T23:57:34Z)
Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文参考訳（メタデータ） (2023-09-02T22:14:26Z)
Diffusion Language Models Can Perform Many Tasks with Scaling and Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文参考訳（メタデータ） (2023-08-23T16:01:12Z)
Fine-Tune Language Models as Multi-Modal Differential Equation Solvers [14.181842691371935]
本稿では,コンテキスト内演算子の学習をマルチモーダルパラダイムに変換する。特に,近年の大規模言語モデルの成功からインスピレーションを得て,演算子に関する人間の知識を統合するために「カプセル」の使用を提案する。
論文参考訳（メタデータ） (2023-08-09T16:44:25Z)
Black-box language model explanation by context length probing [7.526153863886609]
本稿では、因果言語モデルのための新しい説明手法である文脈長探索について述べる。この技術はモデルに依存しず、トークンレベルの確率の計算以上のモデル内部へのアクセスに依存しない。事前学習された大規模言語モデルに文脈長探索を適用し、初期分析と洞察を提供する。
論文参考訳（メタデータ） (2022-12-30T16:24:10Z)
Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文参考訳（メタデータ） (2022-09-08T14:12:15Z)
Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚するインタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文参考訳（メタデータ） (2022-06-13T17:34:22Z)
Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文参考訳（メタデータ） (2022-02-21T18:32:24Z)
Incorporating Linguistic Knowledge for Abstractive Multi-document Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。依存関係情報を言語誘導型注意機構に処理する。言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文参考訳（メタデータ） (2021-09-23T08:13:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。