論文の概要: Mechanistic interpretability of large language models with applications to the financial services industry
- arxiv url: http://arxiv.org/abs/2407.11215v1
- Date: Mon, 15 Jul 2024 19:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 19:21:30.812577
- Title: Mechanistic interpretability of large language models with applications to the financial services industry
- Title(参考訳): 大規模言語モデルの機械論的解釈可能性と金融サービス産業への応用
- Authors: Ashkan Golgoon, Khashayar Filom, Arjun Ravi Kannan,
- Abstract要約: 我々は、金融サービスアプリケーションで使用する大規模言語モデルの内部動作に光を当てるために、機械的解釈可能性の使用の先駆者です。
特に,フェアレンディング法違反の可能性を特定するために,GPT-2スモールの注意パターンについて検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models such as GPTs (Generative Pre-trained Transformers) exhibit remarkable capabilities across a broad spectrum of applications. Nevertheless, due to their intrinsic complexity, these models present substantial challenges in interpreting their internal decision-making processes. This lack of transparency poses critical challenges when it comes to their adaptation by financial institutions, where concerns and accountability regarding bias, fairness, and reliability are of paramount importance. Mechanistic interpretability aims at reverse engineering complex AI models such as transformers. In this paper, we are pioneering the use of mechanistic interpretability to shed some light on the inner workings of large language models for use in financial services applications. We offer several examples of how algorithmic tasks can be designed for compliance monitoring purposes. In particular, we investigate GPT-2 Small's attention pattern when prompted to identify potential violation of Fair Lending laws. Using direct logit attribution, we study the contributions of each layer and its corresponding attention heads to the logit difference in the residual stream. Finally, we design clean and corrupted prompts and use activation patching as a causal intervention method to localize our task completion components further. We observe that the (positive) heads $10.2$ (head $2$, layer $10$), $10.7$, and $11.3$, as well as the (negative) heads $9.6$ and $10.6$ play a significant role in the task completion.
- Abstract(参考訳): GPT(Generative Pre-trained Transformers)のような大規模言語モデルは、幅広いアプリケーションにまたがる優れた機能を示している。
それにもかかわらず、本質的な複雑さのため、これらのモデルは内部決定過程を解釈する上で大きな課題をもたらす。
この透明性の欠如は、偏見、公平性、信頼性に関する懸念と説明責任が最重要事項である金融機関への適応に関して重要な課題を生じさせる。
機械的解釈可能性(Mechanistic Interpretability)は、トランスフォーマーのような複雑なAIモデルをリバースエンジニアリングすることを目的としている。
本稿では,金融サービスアプリケーションで使用する大規模言語モデルの内部構造に光を当てるために,機械的解釈可能性の利用を先駆的に進める。
コンプライアンス監視のためにアルゴリズムタスクをどのように設計するかの例をいくつか提示する。
特に,フェアレンディング法違反の可能性を特定するために,GPT-2スモールの注意パターンについて検討する。
直接ロジット属性を用いて,各層と対応するアテンションヘッドの残流のロジット差に対する寄与について検討した。
最後に、クリーンで破損したプロンプトを設計し、さらにタスク完了コンポーネントをローカライズするための因果介入手法としてアクティベーションパッチを使用する。
我々は、(肯定的な)ヘッドが10.2ドル(ヘッド2ドル、レイヤ10ドル)、10.7ドル、11.3ドル、および(否定的な)ヘッドがタスク完了において重要な役割を果たすのを観察している。
関連論文リスト
- Counting Ability of Large Language Models and Impact of Tokenization [17.53620419920189]
大規模言語モデル(LLM)の数え上げ能力に及ぼすトークン化の影響について検討する。
本研究は, LLMのカウント能力に及ぼすトークン化の影響について検討し, 入力トークン化差に基づく性能変化を明らかにする。
論文 参考訳(メタデータ) (2024-10-25T17:56:24Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - Equipping Language Models with Tool Use Capability for Tabular Data
Analysis in Finance [10.859392781606623]
大規模言語モデル(LLM)は、様々な推論能力を示しているが、エラーの伝播や幻覚といった課題に直面している。
これらの制限を緩和する外部ツールによる言語モデル拡張の可能性を探る。
教師付き微調整をLLaMA-2 13B Chatモデルに適用し,「タスクルータ」と「タスクソルバ」の両方として機能させる。
論文 参考訳(メタデータ) (2024-01-27T07:08:37Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - LaundroGraph: Self-Supervised Graph Representation Learning for
Anti-Money Laundering [5.478764356647437]
LaundroGraphは、新しい教師付きグラフ表現学習アプローチである。
マネーロンダリング防止プロセスを支援するための洞察を提供する。
我々の知る限りでは、これはAML検出の文脈における最初の完全自己教師システムである。
論文 参考訳(メタデータ) (2022-10-25T21:58:02Z) - PLATON: Pruning Large Transformer Models with Upper Confidence Bound of
Weight Importance [114.1541203743303]
本稿では,重要度推定の上位信頼度境界(UCB)による重要度スコアの不確かさを捉えるPLATONを提案する。
我々は、自然言語理解、質問応答、画像分類に関するトランスフォーマーモデルを用いて、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2022-06-25T05:38:39Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - VisBERT: Hidden-State Visualizations for Transformers [66.86452388524886]
VisBERTは,複数の質問応答のタスクに対して,BERT内のコンテキストトークン表現を可視化するツールである。
VisBERTは、モデルの内部状態に関する洞察を得て、推論ステップや潜在的な欠点を探索することを可能にする。
論文 参考訳(メタデータ) (2020-11-09T15:37:43Z) - Generating Plausible Counterfactual Explanations for Deep Transformers
in Financial Text Classification [33.026285180536036]
本稿では,実証可能な対実的説明を創出するための新しい手法を提案する。
また、FinTechのドメインにおける言語モデルに対する敵対的トレーニングの正規化の利点についても検討している。
論文 参考訳(メタデータ) (2020-10-23T16:29:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。