論文の概要: Early Discovery of Emerging Entities in Persian Twitter with Semantic
Similarity
- arxiv url: http://arxiv.org/abs/2207.02434v2
- Date: Wed, 7 Jun 2023 04:51:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 20:22:56.603647
- Title: Early Discovery of Emerging Entities in Persian Twitter with Semantic
Similarity
- Title(参考訳): セマンティックな類似性を持つペルシャのTwitterにおける創発的エンティティの早期発見
- Authors: Shahin Yousefi, Mohsen Hooshmand, Mohsen Afsharchi
- Abstract要約: 新興企業(EE)の発見は、設立前の企業を見つけることの課題である。
本稿では,データセット上でのトレーニングを必要とせずに,EEを検出可能なオンラインクラスタリング手法であるEEPTを提案する。
その結果,EEPTは有望であり,設立前に重要な存在を見出すことができた。
- 参考スコア(独自算出の注目度): 0.8029049649310211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discovering emerging entities (EEs) is the problem of finding entities before
their establishment. These entities can be critical for individuals, companies,
and governments. Many of these entities can be discovered on social media
platforms, e.g. Twitter. These identities have been the spot of research in
academia and industry in recent years. Similar to any machine learning problem,
data availability is one of the major challenges in this problem. This paper
proposes EEPT. That is an online clustering method able to discover EEs without
any need for training on a dataset. Additionally, due to the lack of a proper
evaluation metric, this paper uses a new metric to evaluate the results. The
results show that EEPT is promising and finds significant entities before their
establishment.
- Abstract(参考訳): 新興企業(EE)の発見は、設立前の企業を見つけることの課題である。
これらの実体は個人、企業、政府にとって重要である。
これらのエンティティの多くは、例えばtwitterのようなソーシャルメディアプラットフォームで発見することができる。
これらのアイデンティティは近年、学術と産業の研究の場となっている。
あらゆる機械学習問題と同様、データの可用性もこの問題の大きな課題のひとつだ。
本稿ではEEPTを提案する。
これは、データセットのトレーニングを必要とせずに、EEを検出するオンラインクラスタリングメソッドです。
さらに,適切な評価基準の欠如により,新たな指標を用いて結果を評価する。
その結果,EEPTは有望であり,設立前に重要な存在を見出すことができた。
関連論文リスト
- A quest through interconnected datasets: lessons from highly-cited ICASSP papers [5.973995274784385]
我々は,ICASSP(International Conference on Acoustics, Speech, and Signal Processing)において,トップ5の引用論文に関連するデータセットの利用状況について検討する。
この方法では、使用済みデータセットの起源を徹底的に分析し、しばしば公式論文で報告された以上の検索を行なわなければならない。
特に、より大きく、おそらく生成可能なAIモデルへの現在のプルでは、データ証明に対する説明責任の必要性に対する認識が高まっている。
論文 参考訳(メタデータ) (2024-09-19T14:25:57Z) - Evaluating Automatic Metrics with Incremental Machine Translation Systems [55.78547133890403]
商業機械翻訳からなるデータセットを導入し,12の翻訳方向から6年間にわたって収集した。
商業システムは時間とともに改善され、より最近の翻訳の好みに基づいて機械翻訳(MT)メトリクスを評価することができると仮定する。
論文 参考訳(メタデータ) (2024-07-03T17:04:17Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - ESG Sentiment Analysis: comparing human and language model performance
including GPT [0.0]
ESGは近年、金融セクターからの関心が高まり、重要性が増している。
ESGに関する評判を測定するための感情分析の利用が発展し、それを行う機械の使用に関心を持つようになった。
本研究は,ESG関連感情測定において,機械性能の最先端性と比較することを目的とする。
論文 参考訳(メタデータ) (2024-02-26T15:22:30Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - Emotion detection of social data: APIs comparative study [2.7708222692419735]
感情検出技術の発展は、企業セクターにとって非常に価値のある可能性として現れてきた。
本研究は,IBM Watson NLU, ParallelDots, Symanto-Ekman, Crystalfeel, Text to Emotion, Senpy, Textprobe, NLP Cloudの8つの技術を比較した。
選択したデータセットからの感情は、組み込みAPIを使用して導出される。
論文 参考訳(メタデータ) (2022-07-08T08:47:31Z) - Mitigating Sovereign Data Exchange Challenges: A Mapping to Apply
Privacy- and Authenticity-Enhancing Technologies [67.34625604583208]
AET(Authenticity Enhancing Technologies)とPET(Privacy-Enhancing Technologies)は、SDE(Sovereign Data Exchange)に関与していると考えられている。
PETとAETは技術的に複雑であり、採用を妨げる。
本研究は,挑戦指向技術マッピングを実証的に構築する。
論文 参考訳(メタデータ) (2022-06-20T08:16:42Z) - Building Inspection Toolkit: Unified Evaluation and Strong Baselines for
Damage Recognition [0.0]
損傷認識の分野において、関連するオープンソースデータセットを含むデータハブを簡易に使用するためのビルディングインスペクションツールキット -- bikit -- を紹介します。
データセットには評価分割と事前定義されたメトリクスが組み込まれており、特定のタスクとそのデータ分布に適合する。
この領域の研究者のモチベーションを高めるために、私たちはリーダーボードとモデルの重みをコミュニティと共有する可能性も提供します。
論文 参考訳(メタデータ) (2022-02-14T20:05:59Z) - An Ethical Highlighter for People-Centric Dataset Creation [62.886916477131486]
本稿では,既存のデータセットの倫理的評価を導くための分析フレームワークを提案する。
我々の研究は、先行研究のレビューと分析によって知らされ、そのような倫理的課題が生じる場所を強調します。
論文 参考訳(メタデータ) (2020-11-27T07:18:44Z) - TIMME: Twitter Ideology-detection via Multi-task Multi-relational
Embedding [26.074367752142198]
我々は、人々のイデオロギーや政治的傾向を予測する問題を解決することを目的としている。
我々は、Twitterデータを用いてそれを推定し、分類問題として定式化する。
論文 参考訳(メタデータ) (2020-06-02T00:00:39Z) - Opportunities and Challenges of Deep Learning Methods for
Electrocardiogram Data: A Systematic Review [62.490310870300746]
心電図(Electrocardiogram、ECG)は、医学および医療において最も一般的に用いられる診断ツールの1つである。
深層学習法は心電図信号を用いた予測医療タスクにおいて有望な結果を得た。
本稿では、モデリングとアプリケーションの観点から、ECGデータに対するディープラーニング手法の体系的なレビューを行う。
論文 参考訳(メタデータ) (2019-12-28T02:44:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。