論文の概要: Interpretable Company Similarity with Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2412.02605v2
- Date: Tue, 10 Dec 2024 23:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:44:55.670041
- Title: Interpretable Company Similarity with Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる解釈可能な企業類似性
- Authors: Marco Molinari, Victor Shao, Vladimir Tregubiak, Abhimanyu Pandey, Mateusz Mikolajczak, Sebastian Kuznetsov Ryder Torres Pereira,
- Abstract要約: 大規模言語モデル(LLM)の解釈可能性を高めるためのハウパースオートエンコーダ(SAE)について述べる。
SAEの機能をSIC-codes、Major Group codes、Embedddingsに対してベンチマークします。
以上の結果から,SAEの特徴は複製だけでなく,企業特性の把握において,セクターの分類や組込みを超越することが多いことが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining company similarity is a vital task in finance, underpinning hedging, risk management, portfolio diversification, and more. Practitioners often rely on sector and industry classifications to gauge similarity, such as SIC-codes and GICS-codes - the former being used by the U.S. Securities and Exchange Commission (SEC), and the latter widely used by the investment community. Since these classifications can lack granularity and often need to be updated, using clusters of embeddings of company descriptions has been proposed as a potential alternative, but the lack of interpretability in token embeddings poses a significant barrier to adoption in high-stakes contexts. Sparse Autoencoders (SAEs) have shown promise in enhancing the interpretability of Large Language Models (LLMs) by decomposing LLM activations into interpretable features. We apply SAEs to company descriptions, obtaining meaningful clusters of equities in the process. We benchmark SAE features against SIC-codes, Major Group codes, and Embeddings. Our results demonstrate that SAE features not only replicate but often surpass sector classifications and embeddings in capturing fundamental company characteristics. This is evidenced by their superior performance in correlating monthly returns - a proxy for similarity - and generating higher Sharpe ratio co-integration strategies, which underscores deeper fundamental similarities among companies.
- Abstract(参考訳): 企業類似性の決定は、ヘッジ、リスク管理、ポートフォリオの多様化など、金融において重要な課題である。
前者は米国証券取引委員会(SEC)で、後者は投資コミュニティで広く使われている。
これらの分類には粒度の欠如があり、しばしば更新される必要があるため、企業記述の埋め込みのクラスタが潜在的な代替案として提案されているが、トークンの埋め込みにおける解釈可能性の欠如は、ハイテイクな文脈での採用に重大な障壁をもたらす。
スパースオートエンコーダ(SAE)は、LLMアクティベーションを解釈可能な機能に分解することで、LLM(Large Language Models)の解釈可能性を高めることを約束している。
SAEを企業説明に適用し、その過程で意味のある株式のクラスターを得る。
SAEの機能をSIC-codes、Major Group codes、Embedddingsに対してベンチマークします。
以上の結果から,SAEの特徴は複製だけでなく,企業の基本的な特徴を捉える上で,セクターの分類や埋め込みを超越することが多いことが示唆された。
これは、月次リターン(類似性のプロキシ)に関連するパフォーマンスが優れており、シャープ比がより高められ、企業間の根本的な類似性を裏付ける統合戦略が生まれていることが証明されている。
関連論文リスト
- Are Sparse Autoencoders Useful? A Case Study in Sparse Probing [6.836374436707495]
スパースオートエンコーダ(SAE)は、大言語モデル(LLM)アクティベーションで表される概念を解釈する一般的な方法である。
もう一つの証拠源は、SAEが既存のベースラインを超えて下流タスクのパフォーマンスを改善していることを示すことである。
SAEを4つの状況下でのLCM活性化の現実的なタスクに適用することで、これを検証する。
論文 参考訳(メタデータ) (2025-02-23T18:54:15Z) - Supervised Similarity for High-Yield Corporate Bonds with Quantum Cognition Machine Learning [0.8706730566331037]
企業債券市場における距離メトリック学習への量子認知機械学習(QCML)の適用について検討する。
QCMLは、高利回り(HY)市場では古典的ツリーベースモデルよりも優れており、投資適格(IG)市場では同等またはより良いパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-03T16:28:44Z) - Post-hoc Probabilistic Vision-Language Models [51.12284891724463]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Addressing Uncertainty in LLMs to Enhance Reliability in Generative AI [47.64301863399763]
中国レストランプロセスに触発された動的セマンティッククラスタリング手法を提案する。
生成したセマンティッククラスタのエントロピーを計算することにより,あるクエリ上でのLarge Language Model(LLM)の不確実性を定量化する。
本稿では,これらのクラスタの(負の)確率を,コンフォーマル予測フレームワーク内の(非)整合性スコアとして活用することを提案する。
論文 参考訳(メタデータ) (2024-11-04T18:49:46Z) - Decoding Dark Matter: Specialized Sparse Autoencoders for Interpreting Rare Concepts in Foundation Models [26.748765050034876]
特殊スパースオートエンコーダ(SSAE)は、特定の点に注目して、暗黒物質の特徴を照らす。
SSAEは,汎用SAEの能力を超越して,サブドメインのテール概念を効果的に捉えていることを示す。
SSAEs の実用性について,Bias in Bios データセットのケーススタディで紹介し,SSAEs が有意な性別情報を除去するために適用した場合,最悪のグループ分類精度が 12.5% 向上することを示した。
論文 参考訳(メタデータ) (2024-11-01T17:09:34Z) - FRAG: Toward Federated Vector Database Management for Collaborative and Secure Retrieval-Augmented Generation [1.3824176915623292]
本稿では,検索集約システム (RAG) のニーズの増大に対応する新しいデータベース管理パラダイムである textitFederated Retrieval-Augmented Generation (FRAG) を紹介する。
FRAGは、ANN(Approximate $k$-Nearest Neighbor)による、暗号化されたクエリベクタと分散ベクトルデータベースに格納された暗号化データ検索を相互に行うことができる。
論文 参考訳(メタデータ) (2024-10-17T06:57:29Z) - Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
textbfSemantic textbfEquitable textbfClustering (SEC) という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Learnable Item Tokenization for Generative Recommendation [78.30417863309061]
LETTER (Larnable Tokenizer for generaTivE Recommendation) を提案する。
LETTERは、セマンティック正規化のためのResidual Quantized VAE、協調正規化のためのコントラストアライメント損失、コードの割り当てバイアスを軽減するための多様性損失を組み込んでいる。
論文 参考訳(メタデータ) (2024-05-12T15:49:38Z) - CoinSeg: Contrast Inter- and Intra- Class Representations for
Incremental Segmentation [85.13209973293229]
クラスインクリメンタルセマンティックセグメンテーションは、モデルの安定性と可塑性のバランスをとることを目的としている。
インクリメンタル(CoinSeg)のためのコントラスト間およびクラス内表現を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:08:49Z) - Prompt Tuned Embedding Classification for Multi-Label Industry Sector Allocation [2.024620791810963]
本研究では,マルチラベルテキスト分類のためのPrompt Tuningとベースラインの性能をベンチマークする。
企業を投資会社の独自産業分類に分類するために適用される。
このモデルのパフォーマンスは、よく知られた企業とあまり知られていない企業の両方で一貫していることを確認します。
論文 参考訳(メタデータ) (2023-09-21T13:45:32Z) - Company2Vec -- German Company Embeddings based on Corporate Websites [0.0]
本稿では,企業2Vecを用いた表現学習における新しい応用法を提案する。
このモデルは、Word2Vecと次元還元を用いて、非構造化企業のWebサイトデータからビジネス活動を分析する。
企業2Vecはセマンティック言語構造を維持しており、粒状産業に効率的な企業埋め込みを創出している。
論文 参考訳(メタデータ) (2023-07-18T15:14:09Z) - CompanyKG: A Large-Scale Heterogeneous Graph for Company Similarity Quantification [1.7156312157033258]
我々は,企業の特徴や関係を多様に表現し,学習するための知識グラフである企業KGを提案し,公開する。
具体的には、131万の企業が、企業記述の埋め込みに富んだノードとして表現されている。
15の異なる企業間関係は、51.06万の重み付きエッジをもたらす。
論文 参考訳(メタデータ) (2023-06-18T23:45:15Z) - Open-Set Recognition: A Good Closed-Set Classifier is All You Need [146.6814176602689]
分類器が「ゼロ・オブ・ア・ア・ア・ベ」決定を行う能力は、閉集合クラスにおける精度と高い相関関係があることが示される。
この相関を利用して、閉セット精度を向上させることにより、クロスエントロピーOSR'ベースライン'の性能を向上させる。
また、セマンティックノベルティを検出するタスクをより尊重する新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2021-10-12T17:58:59Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。