論文の概要: TextGenSHAP: Scalable Post-hoc Explanations in Text Generation with Long
Documents
- arxiv url: http://arxiv.org/abs/2312.01279v1
- Date: Sun, 3 Dec 2023 04:35:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:21:27.877339
- Title: TextGenSHAP: Scalable Post-hoc Explanations in Text Generation with Long
Documents
- Title(参考訳): TextGenSHAP:長いドキュメントによるテキスト生成におけるスケーラブルなポストホック説明
- Authors: James Enouen, Hootan Nakhost, Sayna Ebrahimi, Sercan O Arik, Yan Liu,
Tomas Pfister
- Abstract要約: LM固有の手法を取り入れた効率的なポストホック説明法であるTextGenSHAPを紹介する。
従来のShapley値計算と比較して,速度が大幅に向上することを示す。
さらに,実時間シェープ値が2つの重要なシナリオでどのように活用できるかを示す。
- 参考スコア(独自算出の注目度): 34.52684986240312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have attracted huge interest in practical
applications given their increasingly accurate responses and coherent reasoning
abilities. Given their nature as black-boxes using complex reasoning processes
on their inputs, it is inevitable that the demand for scalable and faithful
explanations for LLMs' generated content will continue to grow. There have been
major developments in the explainability of neural network models over the past
decade. Among them, post-hoc explainability methods, especially Shapley values,
have proven effective for interpreting deep learning models. However, there are
major challenges in scaling up Shapley values for LLMs, particularly when
dealing with long input contexts containing thousands of tokens and
autoregressively generated output sequences. Furthermore, it is often unclear
how to effectively utilize generated explanations to improve the performance of
LLMs. In this paper, we introduce TextGenSHAP, an efficient post-hoc
explanation method incorporating LM-specific techniques. We demonstrate that
this leads to significant increases in speed compared to conventional Shapley
value computations, reducing processing times from hours to minutes for
token-level explanations, and to just seconds for document-level explanations.
In addition, we demonstrate how real-time Shapley values can be utilized in two
important scenarios, providing better understanding of long-document question
answering by localizing important words and sentences; and improving existing
document retrieval systems through enhancing the accuracy of selected passages
and ultimately the final responses.
- Abstract(参考訳): 大規模言語モデル(LLM)は、より正確な応答と一貫性のある推論能力によって、実用的な応用に大きな関心を集めている。
入力に複雑な推論プロセスを用いたブラックボックスとしての性質を考えると、LLMの生成したコンテンツに対するスケーラブルで忠実な説明の要求が今後も増加し続けることは避けられない。
過去10年間で、ニューラルネットワークモデルの説明可能性に大きな進展があった。
その中でも、ポストホックな説明可能性、特にシェープリー値は、ディープラーニングモデルの解釈に有効であることが証明されている。
しかし、特に数千のトークンと自己回帰的に生成された出力シーケンスを含む長い入力コンテキストを扱う場合、LSMのShapley値のスケールアップには大きな課題がある。
さらに, LLMの性能向上のために生成した説明を効果的に活用する方法は, しばしば不明である。
本稿では,lm特有の手法を組み込んだ効率的なポストホックな説明手法textgenshapを提案する。
その結果,従来のShapley値計算に比べて処理時間を数時間から数分に短縮し,文書レベルの説明を数秒に短縮できることがわかった。
さらに,重要な単語や文の局所化による長文質問応答の理解の向上,選択された文の精度の向上と最終回答の最終的な精度向上による既存の文書検索システムの改善という2つの重要なシナリオにおいて,リアルタイムシャプリー値をどのように活用できるかを実証する。
関連論文リスト
- Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [44.84219266082269]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding [58.364933651703524]
注目クエリの特定の領域において、集中した巨大な値が一貫して現れることを示す。
これらの膨大な価値は文脈知識の解釈において重要な役割を担っている。
大量の値の出現を辿り、そのような濃度は回転位置によって引き起こされる。
論文 参考訳(メタデータ) (2025-02-03T17:47:03Z) - Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。
興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。
有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文 参考訳(メタデータ) (2024-11-07T18:59:27Z) - What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。
パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。
長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文 参考訳(メタデータ) (2024-10-31T09:39:28Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - XPrompt:Explaining Large Language Model's Generation via Joint Prompt Attribution [26.639271355209104]
LLM(Large Language Models)は複雑なテキスト生成タスクにおいて顕著なパフォーマンスを示す。
生成したコンテンツに対する入力プロンプトの寄与は、まだ人間には明らかでない。
本稿では,共同プロンプト帰属型XPromptに基づく実例説明フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T18:16:41Z) - Nearest Neighbor Speculative Decoding for LLM Generation and Attribution [87.3259169631789]
Nearest Speculative Decoding (NEST)は、任意の長さの実世界のテキストスパンをLM世代に組み込むことができ、それらのソースへの属性を提供する。
NESTは、様々な知識集約タスクにおいて、基本LMの生成品質と帰属率を大幅に向上させる。
さらに、NESTは、Llama-2-Chat 70Bに適用した場合の推論時間において1.8倍のスピードアップを達成することにより、生成速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-29T17:55:03Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Extending Context Window of Large Language Models via Semantic
Compression [21.35020344956721]
大規模言語モデル(LLM)は、しばしば、流動的で関連する応答の生成を保証するために、テキスト入力の長さに制限を課す。
本稿では,テキストを6~8倍長大に一般化するセマンティック圧縮手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:04:33Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。