論文の概要: Interpretable Company Similarity with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2412.02605v1
- Date: Tue, 03 Dec 2024 17:34:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:48:05.515549
- Title: Interpretable Company Similarity with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる解釈可能な企業類似性
- Authors: Marco Molinari, Vladimir Tregubiak, Victor Shao, Abhimanyu Pandey, Mateusz Mikolajczak, Sebastião Kuznetsov Ryder Torres Pereira,
- Abstract要約: 企業の類似性を決定する潜在的手法として,企業記述のクラスタ化が提案されている。
トークンの埋め込みにおける解釈可能性の欠如は、ハイテイクなコンテキストにおける採用にとって大きな障壁となる。
スパースオートエンコーダは、解釈可能な機能に分解することで、大規模言語モデルの解釈可能性を高めることを約束している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Determining company similarity is a vital task in finance, underpinning hedging, risk management, portfolio diversification, and more. Practitioners often rely on sector and industry classifications to gauge similarity, such as SIC-codes and GICS-codes, the former being used by the U.S. Securities and Exchange Commission (SEC), and the latter widely used by the investment community. Clustering embeddings of company descriptions has been proposed as a potential technique for determining company similarity, but the lack of interpretability in token embeddings poses a significant barrier to adoption in high-stakes contexts. Sparse Autoencoders have shown promise in enhancing the interpretability of Large Language Models by decomposing LLM activations into interpretable features. In this paper, we explore the use of SAE features in measuring company similarity and benchmark them against (1) SIC codes and (2) Major Group codes. We conclude that SAE features can reproduce and even surpass sector classifications in quantifying fundamental characteristics of companies, evaluated by the correlation of monthly returns, a proxy for similarity, and PnL from cointegration.
- Abstract(参考訳): 企業類似性の決定は、ヘッジ、リスク管理、ポートフォリオの多様化など、金融において重要な課題である。
前者は米国証券取引委員会(SEC)で、後者は投資コミュニティで広く使われている。
企業記述のクラスタ化は、企業の類似性を決定する潜在的手法として提案されているが、トークンの埋め込みにおける解釈可能性の欠如は、高い状況において採用にとって大きな障壁となる。
スパースオートエンコーダは、LLMアクティベーションを解釈可能な機能に分解することで、大規模言語モデルの解釈可能性を高めることを約束している。
本稿では,企業類似度の測定におけるSAE機能の利用について検討し,(1)SICコードと(2)メジャーグループコードとのベンチマークを行う。
SAE の特徴は,企業の基本的特徴を定量化するためのセクター分類を再現し,さらに,類似性の指標である月次リターンとPnL の相関から評価することができる。
関連論文リスト
- Sparse Autoencoder Features for Classifications and Transferability [11.2185030332009]
大規模言語モデル(LLM)からの特徴抽出のためのスパースオートエンコーダ(SAE)の解析
本フレームワークは,(1)モデル層選択とスケーリング特性,(2)幅とプール戦略を含むSAEアーキテクチャ構成,(3)連続SAE活性化のバイナライズ効果を評価する。
論文 参考訳(メタデータ) (2025-02-17T02:30:45Z) - Supervised Similarity for High-Yield Corporate Bonds with Quantum Cognition Machine Learning [0.8706730566331037]
企業債券市場における距離メトリック学習への量子認知機械学習(QCML)の適用について検討する。
QCMLは、高利回り(HY)市場では古典的ツリーベースモデルよりも優れており、投資適格(IG)市場では同等またはより良いパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-03T16:28:44Z) - Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models [26.748765050034876]
特殊スパースオートエンコーダ(SSAE)は、特定の点に注目して、暗黒物質の特徴を照らす。
SSAEは,汎用SAEの能力を超越して,サブドメインのテール概念を効果的に捉えていることを示す。
SSAEs の実用性について,Bias in Bios データセットのケーススタディで紹介し,SSAEs が有意な性別情報を除去するために適用した場合,最悪のグループ分類精度が 12.5% 向上することを示した。
論文 参考訳(メタデータ) (2024-11-01T17:09:34Z) - FRAG: Toward Federated Vector Database Management for Collaborative and Secure Retrieval-Augmented Generation [1.3824176915623292]
本稿では,検索集約システム (RAG) のニーズの増大に対応する新しいデータベース管理パラダイムである textitFederated Retrieval-Augmented Generation (FRAG) を紹介する。
FRAGは、ANN(Approximate $k$-Nearest Neighbor)による、暗号化されたクエリベクタと分散ベクトルデータベースに格納された暗号化データ検索を相互に行うことができる。
論文 参考訳(メタデータ) (2024-10-17T06:57:29Z) - Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - CoinSeg: Contrast Inter- and Intra- Class Representations for
Incremental Segmentation [85.13209973293229]
クラスインクリメンタルセマンティックセグメンテーションは、モデルの安定性と可塑性のバランスをとることを目的としている。
インクリメンタル(CoinSeg)のためのコントラスト間およびクラス内表現を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:08:49Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。