論文の概要: Company2Vec -- German Company Embeddings based on Corporate Websites
- arxiv url: http://arxiv.org/abs/2307.09332v1
- Date: Tue, 18 Jul 2023 15:14:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 14:16:46.312385
- Title: Company2Vec -- German Company Embeddings based on Corporate Websites
- Title(参考訳): Company2Vec - 企業ウェブサイトに基づくドイツの企業埋め込み
- Authors: Christopher Gerling
- Abstract要約: 本稿では,企業2Vecを用いた表現学習における新しい応用法を提案する。
このモデルは、Word2Vecと次元還元を用いて、非構造化企業のWebサイトデータからビジネス活動を分析する。
企業2Vecはセマンティック言語構造を維持しており、粒状産業に効率的な企業埋め込みを創出している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With Company2Vec, the paper proposes a novel application in representation
learning. The model analyzes business activities from unstructured company
website data using Word2Vec and dimensionality reduction. Company2Vec maintains
semantic language structures and thus creates efficient company embeddings in
fine-granular industries. These semantic embeddings can be used for various
applications in banking. Direct relations between companies and words allow
semantic business analytics (e.g. top-n words for a company). Furthermore,
industry prediction is presented as a supervised learning application and
evaluation method. The vectorized structure of the embeddings allows measuring
companies similarities with the cosine distance. Company2Vec hence offers a
more fine-grained comparison of companies than the standard industry labels
(NACE). This property is relevant for unsupervised learning tasks, such as
clustering. An alternative industry segmentation is shown with k-means
clustering on the company embeddings. Finally, this paper proposes three
algorithms for (1) firm-centric, (2) industry-centric and (3) portfolio-centric
peer-firm identification.
- Abstract(参考訳): 企業2Vecでは,表現学習の新しい応用法を提案する。
このモデルは、Word2Vecと次元還元を用いて、非構造化企業のウェブサイトデータからビジネス活動を分析する。
company2vecはセマンティクス言語構造を維持し、ファイングラニュラー産業における効率的な企業埋め込みを生み出している。
これらのセマンティックな埋め込みは、銀行の様々なアプリケーションに利用できる。
企業と単語の直接的な関係は、セマンティックビジネス分析を可能にする(例えば、企業のトップnワード)。
さらに、業界予測を教師付き学習アプリケーションおよび評価方法として提示する。
埋め込みのベクトル化構造により、企業はコサイン距離と類似度を測定することができる。
そのため、Count2Vecは標準産業レーベル(NACE)よりもきめ細かい比較を行っている。
この性質はクラスタリングのような教師なしの学習タスクに関係している。
別の業界セグメンテーションとして、企業埋め込みにk-meansクラスタリングがある。
最後に,(1)企業中心,(2)産業中心,(3)ポートフォリオ中心のピアファクト識別のための3つのアルゴリズムを提案する。
関連論文リスト
- Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - CompanyKG: A Large-Scale Heterogeneous Graph for Company Similarity Quantification [1.7156312157033258]
我々は,企業の特徴や関係を多様に表現し,学習するための知識グラフである企業KGを提案し,公開する。
具体的には、131万の企業が、企業記述の埋め込みに富んだノードとして表現されている。
15の異なる企業間関係は、51.06万の重み付きエッジをもたらす。
論文 参考訳(メタデータ) (2023-06-18T23:45:15Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Company classification using zero-shot learning [0.0]
NLPとゼロショット学習を用いた企業分類手法を提案する。
Wharton Research Data Services(WRDS)を用いて得られたデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-01T18:36:06Z) - Investigating Graph Structure Information for Entity Alignment with
Dangling Cases [31.779386064600956]
エンティティアライメントは、異なる知識グラフ(KG)における等価なエンティティを見つけることを目的としている。
Weakly-optimal Graph Contrastive Learning (WOGCL) と呼ばれる新しいエンティティアライメントフレームワークを提案する。
We show that WOGCL are outperforms the current-of-the-art method with pure structure information in traditional (relaxed) and dangling settings。
論文 参考訳(メタデータ) (2023-04-10T17:24:43Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - Stock2Vec: An Embedding to Improve Predictive Models for Companies [0.5872014229110215]
私たちは、どんな予測モデルにも簡単に追加できる企業株、Stock2Vecの埋め込みを作成します。
次に、応用機械学習問題への埋め込みを評価するための総合的な実験を行う。
実験の結果,Stock2Vec埋め込みの4つの機能は,既存のクロスコンパニオンモデルを容易に拡張できることがわかった。
論文 参考訳(メタデータ) (2022-01-27T02:57:01Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Cascaded Semantic and Positional Self-Attention Network for Document
Classification [9.292885582770092]
ケースドセマンティクスと位置自己注意ネットワーク(CSPAN)を用いた2つの情報ソースを集約する新しいアーキテクチャを提案する。
CSPANは、Bi-LSTMにカスケードされたセマンティックセルフアテンション層を使用して、セマンティックおよび位置情報を逐次的に処理し、その後、残余接続を介してそれらを適応的に結合する。
CSPANモデルを用いて,文書分類用ベンチマークデータセットの評価を行い,その評価結果について検討した。
論文 参考訳(メタデータ) (2020-09-15T15:02:28Z) - A Corpus Study and Annotation Schema for Named Entity Recognition and
Relation Extraction of Business Products [68.26059718611914]
製品エンティティのアノテーションと企業-製品関係の言及のためのコーパススタディ、アノテーションスキーマおよび関連ガイドラインを提示する。
積の言及はしばしば名詞句として認識されるが、境界の曖昧さのため、その正確な範囲を定義することは困難である。
提案ガイドラインに準じて,英文Webおよびソーシャルメディア文書の事前コーパスを提示する。
論文 参考訳(メタデータ) (2020-04-07T11:45:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。