論文の概要: Extend and Explain: Interpreting Very Long Language Models
- arxiv url: http://arxiv.org/abs/2209.01174v1
- Date: Fri, 2 Sep 2022 17:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:27:50.086856
- Title: Extend and Explain: Interpreting Very Long Language Models
- Title(参考訳): 拡張と説明:非常に長い言語モデルの解釈
- Authors: Joel Stremmel, Brian L. Hill, Jeffrey Hertzberg, Jaime Murillo,
Llewelyn Allotey, Eran Halperin
- Abstract要約: 本稿では,予測に寄与するテキストブロックを識別するための新しいMasked Smpling procedure (MSP)を提案する。
MSPは、以前の最先端よりも1.7倍の臨床的に有益なテキストブロックを特定し、100倍の速度で走り、重要なフレーズペアを生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Transformer language models (LMs) are state-of-the-art for information
extraction, long text introduces computational challenges requiring suboptimal
preprocessing steps or alternative model architectures. Sparse-attention LMs
can represent longer sequences, overcoming performance hurdles. However, it
remains unclear how to explain predictions from these models, as not all tokens
attend to each other in the self-attention layers, and long sequences pose
computational challenges for explainability algorithms when runtime depends on
document length. These challenges are severe in the medical context where
documents can be very long, and machine learning (ML) models must be auditable
and trustworthy. We introduce a novel Masked Sampling Procedure (MSP) to
identify the text blocks that contribute to a prediction, apply MSP in the
context of predicting diagnoses from medical text, and validate our approach
with a blind review by two clinicians. Our method identifies about 1.7x more
clinically informative text blocks than the previous state-of-the-art, runs up
to 100x faster, and is tractable for generating important phrase pairs. MSP is
particularly well-suited to long LMs but can be applied to any text classifier.
We provide a general implementation of MSP.
- Abstract(参考訳): トランスフォーマー言語モデル(LM)は情報抽出の最先端技術であるが、ロングテキストは最適化前処理ステップや代替モデルアーキテクチャを必要とする計算課題を導入する。
スパースアテンションLMはより長いシーケンスを表現でき、パフォーマンスハードルを克服できる。
しかし、これらのモデルから予測を説明する方法はまだ不明であり、全てのトークンが自己照準層で互いに交わされるわけではなく、長いシーケンスは、ランタイムが文書の長さに依存する場合、説明可能性アルゴリズムに計算上の課題をもたらす。
これらの課題は、ドキュメントが非常に長く、マシンラーニング(ml)モデルは監査可能で信頼できるものでなければなりません。
予測に寄与するテキストブロックを同定し,医療用テキストからの診断予測の文脈にmspを適用し,2人の臨床医による盲検によるアプローチを検証するための,新しいマスキングサンプリング手順(msp)を提案する。
提案手法は, 従来の最先端のテキストブロックの約1.7倍, 最大100倍高速に動作し, 重要な句対を生成することができる。
MSPは特に長いLMに適しているが、どんなテキスト分類にも適用できる。
MSPの一般的な実装を提供する。
関連論文リスト
- MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Retrieval Oriented Masking Pre-training Language Model for Dense Passage
Retrieval [16.592276887533714]
Masked Language Modeling (MLM) は、事前学習プロセスの主要なサブタスクである。
従来のランダムマスキング戦略は、パス検索タスクに制限のある多数のトークンを選択する傾向にある。
本稿では,より重要なトークンがマスクアウトされる確率の高い検索指向マスキング(ROM)戦略を提案する。
論文 参考訳(メタデータ) (2022-10-27T02:43:48Z) - Position-based Prompting for Health Outcome Generation [0.0]
そこで本研究では,各単語の位置情報をマスクに対するプロンプトで捕捉する位置認識機構について検討する。
我々のアプローチは、デフォルトのマスク言語モデル(MLM)表現がマスクトークンの予測に使用されるベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2022-03-30T16:44:04Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z) - Adversarial Encoder-Multi-Task-Decoder for Multi-Stage Processes [5.933303832684138]
多段階プロセスでは、決定は順序付けられた段階の順序で行われる。
本稿では,AAE(Adversarial Autoencoder),MTL(Multi-task Learning),MLSSL(Multi-label semi-supervised Learning)を組み合わせたフレームワークを提案する。
異なるドメインの実際のデータを用いて、我々のアプローチは他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-15T19:30:31Z) - Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。
そこで本研究では,S-LSTMの深度適応機構を提案する。
論文 参考訳(メタデータ) (2020-02-29T03:09:55Z) - Interpretable Multi-Headed Attention for Abstractive Summarization at
Controllable Lengths [14.762731718325002]
MLS(Multi-level Summarizer)は、テキスト文書の要約を制御可能な長さで構築するための教師付き手法である。
MLSはMETEORスコアで14.70%の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2020-02-18T19:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。