論文の概要: Extend and Explain: Interpreting Very Long Language Models
- arxiv url: http://arxiv.org/abs/2209.01174v1
- Date: Fri, 2 Sep 2022 17:15:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:27:50.086856
- Title: Extend and Explain: Interpreting Very Long Language Models
- Title(参考訳): 拡張と説明:非常に長い言語モデルの解釈
- Authors: Joel Stremmel, Brian L. Hill, Jeffrey Hertzberg, Jaime Murillo,
Llewelyn Allotey, Eran Halperin
- Abstract要約: 本稿では,予測に寄与するテキストブロックを識別するための新しいMasked Smpling procedure (MSP)を提案する。
MSPは、以前の最先端よりも1.7倍の臨床的に有益なテキストブロックを特定し、100倍の速度で走り、重要なフレーズペアを生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Transformer language models (LMs) are state-of-the-art for information
extraction, long text introduces computational challenges requiring suboptimal
preprocessing steps or alternative model architectures. Sparse-attention LMs
can represent longer sequences, overcoming performance hurdles. However, it
remains unclear how to explain predictions from these models, as not all tokens
attend to each other in the self-attention layers, and long sequences pose
computational challenges for explainability algorithms when runtime depends on
document length. These challenges are severe in the medical context where
documents can be very long, and machine learning (ML) models must be auditable
and trustworthy. We introduce a novel Masked Sampling Procedure (MSP) to
identify the text blocks that contribute to a prediction, apply MSP in the
context of predicting diagnoses from medical text, and validate our approach
with a blind review by two clinicians. Our method identifies about 1.7x more
clinically informative text blocks than the previous state-of-the-art, runs up
to 100x faster, and is tractable for generating important phrase pairs. MSP is
particularly well-suited to long LMs but can be applied to any text classifier.
We provide a general implementation of MSP.
- Abstract(参考訳): トランスフォーマー言語モデル(LM)は情報抽出の最先端技術であるが、ロングテキストは最適化前処理ステップや代替モデルアーキテクチャを必要とする計算課題を導入する。
スパースアテンションLMはより長いシーケンスを表現でき、パフォーマンスハードルを克服できる。
しかし、これらのモデルから予測を説明する方法はまだ不明であり、全てのトークンが自己照準層で互いに交わされるわけではなく、長いシーケンスは、ランタイムが文書の長さに依存する場合、説明可能性アルゴリズムに計算上の課題をもたらす。
これらの課題は、ドキュメントが非常に長く、マシンラーニング(ml)モデルは監査可能で信頼できるものでなければなりません。
予測に寄与するテキストブロックを同定し,医療用テキストからの診断予測の文脈にmspを適用し,2人の臨床医による盲検によるアプローチを検証するための,新しいマスキングサンプリング手順(msp)を提案する。
提案手法は, 従来の最先端のテキストブロックの約1.7倍, 最大100倍高速に動作し, 重要な句対を生成することができる。
MSPは特に長いLMに適しているが、どんなテキスト分類にも適用できる。
MSPの一般的な実装を提供する。
関連論文リスト
- Equipping Transformer with Random-Access Reading for Long-Context Understanding [9.433800833564279]
長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。
本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
論文 参考訳(メタデータ) (2024-05-21T21:41:07Z) - TextGenSHAP: Scalable Post-hoc Explanations in Text Generation with Long
Documents [34.52684986240312]
LM固有の手法を取り入れた効率的なポストホック説明法であるTextGenSHAPを紹介する。
従来のShapley値計算と比較して,速度が大幅に向上することを示す。
さらに,実時間シェープ値が2つの重要なシナリオでどのように活用できるかを示す。
論文 参考訳(メタデータ) (2023-12-03T04:35:04Z) - Not Enough Labeled Data? Just Add Semantics: A Data-Efficient Method for
Inferring Online Health Texts [0.0]
低リソースの健康NLPタスクをモデル化する手段として,抽象表現(AMR)グラフを用いる。
AMRは、多文入力を表現し、複雑な用語から抽象化し、長距離関係をモデル化するため、オンラインの健康テキストをモデル化するのに適している。
本実験は,テキスト埋め込みをセマンティックグラフ埋め込みで拡張することにより,6つの低リソースなNLPタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-18T15:37:30Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - The first step is the hardest: Pitfalls of Representing and Tokenizing
Temporal Data for Large Language Models [10.414206635385632]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な一般化を実証している。
ウェアラブルや電子健康記録から得られたデータなど、数値データや時間データをこれらのモデルに入力する際に、顕著な障害が発生する。
モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じるとともに、一般的なLLMが時間データを誤ってトークン化していることを示すケーススタディを示す。
論文 参考訳(メタデータ) (2023-09-12T13:51:29Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - MURMUR: Modular Multi-Step Reasoning for Semi-Structured Data-to-Text
Generation [102.20036684996248]
多段階推論を用いた半構造化データからテキストを生成するための,ニューロシンボリックなモジュラーアプローチであるMURMURを提案する。
WebNLG や LogicNLG のような2つのデータ・テキスト生成タスクについて実験を行った。
論文 参考訳(メタデータ) (2022-12-16T17:36:23Z) - Recurrent Chunking Mechanisms for Long-Text Machine Reading
Comprehension [59.80926970481975]
機械読解(MRC)を長文で研究する。
モデルは長い文書と質問を入力として取り、回答として文書からテキストを抽出する。
我々は、モデルに強化学習を通じてより柔軟な方法でチャンクを学習させることを提案する。
論文 参考訳(メタデータ) (2020-05-16T18:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。