論文の概要: Interpretable Company Similarity with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2412.02605v2
- Date: Tue, 10 Dec 2024 23:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 13:59:37.760542
- Title: Interpretable Company Similarity with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる解釈可能な企業類似性
- Authors: Marco Molinari, Victor Shao, Vladimir Tregubiak, Abhimanyu Pandey, Mateusz Mikolajczak, Sebastian Kuznetsov Ryder Torres Pereira,
- Abstract要約: 大規模言語モデル(LLM)の解釈可能性を高めるためのハウパースオートエンコーダ(SAE)について述べる。
SAEの機能をSIC-codes、Major Group codes、Embedddingsに対してベンチマークします。
以上の結果から,SAEの特徴は複製だけでなく,企業特性の把握において,セクターの分類や組込みを超越することが多いことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Determining company similarity is a vital task in finance, underpinning hedging, risk management, portfolio diversification, and more. Practitioners often rely on sector and industry classifications to gauge similarity, such as SIC-codes and GICS-codes - the former being used by the U.S. Securities and Exchange Commission (SEC), and the latter widely used by the investment community. Since these classifications can lack granularity and often need to be updated, using clusters of embeddings of company descriptions has been proposed as a potential alternative, but the lack of interpretability in token embeddings poses a significant barrier to adoption in high-stakes contexts. Sparse Autoencoders (SAEs) have shown promise in enhancing the interpretability of Large Language Models (LLMs) by decomposing LLM activations into interpretable features. We apply SAEs to company descriptions, obtaining meaningful clusters of equities in the process. We benchmark SAE features against SIC-codes, Major Group codes, and Embeddings. Our results demonstrate that SAE features not only replicate but often surpass sector classifications and embeddings in capturing fundamental company characteristics. This is evidenced by their superior performance in correlating monthly returns - a proxy for similarity - and generating higher Sharpe ratio co-integration strategies, which underscores deeper fundamental similarities among companies.
- Abstract(参考訳): 企業類似性の決定は、ヘッジ、リスク管理、ポートフォリオの多様化など、金融において重要な課題である。
前者は米国証券取引委員会(SEC)で、後者は投資コミュニティで広く使われている。
これらの分類には粒度の欠如があり、しばしば更新される必要があるため、企業記述の埋め込みのクラスタが潜在的な代替案として提案されているが、トークンの埋め込みにおける解釈可能性の欠如は、ハイテイクな文脈での採用に重大な障壁をもたらす。
スパースオートエンコーダ(SAE)は、LLMアクティベーションを解釈可能な機能に分解することで、LLM(Large Language Models)の解釈可能性を高めることを約束している。
SAEを企業説明に適用し、その過程で意味のある株式のクラスターを得る。
SAEの機能をSIC-codes、Major Group codes、Embedddingsに対してベンチマークします。
以上の結果から,SAEの特徴は複製だけでなく,企業の基本的な特徴を捉える上で,セクターの分類や埋め込みを超越することが多いことが示唆された。
これは、月次リターン(類似性のプロキシ)に関連するパフォーマンスが優れており、シャープ比がより高められ、企業間の根本的な類似性を裏付ける統合戦略が生まれていることが証明されている。
関連論文リスト
- Compute Optimal Inference and Provable Amortisation Gap in Sparse Autoencoders [0.0]
スパース符号化のレンズを用いて,SAEにおけるスパース推論と学習について検討した。
計算制限付きエンコーダを用いて,SAEがアモータイズされたスパース推論を行うことを示す。
より洗練されたスパース推論手法が従来のSAEエンコーダより優れている条件を実証的に探求する。
論文 参考訳(メタデータ) (2024-11-20T08:21:53Z) - Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - Quantifying Credit Portfolio sensitivity to asset correlations with
interpretable generative neural networks [2.0879455564130582]
本稿では,クレジットポートフォリオのバリュー・アット・リスク(VaR)のアセット相関に対する感度の定量化のための新しいアプローチを提案する。
より解釈可能な潜在空間表現を実現するために、可変オートエンコーダ(VAE)を用いる。
分析の結果,VOE潜伏空間はポートフォリオの多様化に影響を及ぼす重要な要因を捉える上で有用なツールであることが判明した。
論文 参考訳(メタデータ) (2023-09-15T15:21:14Z) - Company2Vec -- German Company Embeddings based on Corporate Websites [0.0]
本稿では,企業2Vecを用いた表現学習における新しい応用法を提案する。
このモデルは、Word2Vecと次元還元を用いて、非構造化企業のWebサイトデータからビジネス活動を分析する。
企業2Vecはセマンティック言語構造を維持しており、粒状産業に効率的な企業埋め込みを創出している。
論文 参考訳(メタデータ) (2023-07-18T15:14:09Z) - Named entity recognition using GPT for identifying comparable companies [0.0]
我々は,OpenAIのGPTのような大規模言語モデル(LLM)を用いることで,標準的なエンティティ認識(NER)手法よりも精度と成功率が高いことを示す。
定量的に高い精度を実証し、質的に言えば、適切な競合する企業同士のピアグループを作るのに使用できることを示す。
論文 参考訳(メタデータ) (2023-07-11T16:48:16Z) - CompanyKG: A Large-Scale Heterogeneous Graph for Company Similarity Quantification [1.7156312157033258]
我々は,企業の特徴や関係を多様に表現し,学習するための知識グラフである企業KGを提案し,公開する。
具体的には、131万の企業が、企業記述の埋め込みに富んだノードとして表現されている。
15の異なる企業間関係は、51.06万の重み付きエッジをもたらす。
論文 参考訳(メタデータ) (2023-06-18T23:45:15Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。