論文の概要: A Tweet-based Dataset for Company-Level Stock Return Prediction
- arxiv url: http://arxiv.org/abs/2006.09723v1
- Date: Wed, 17 Jun 2020 08:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 21:22:09.278207
- Title: A Tweet-based Dataset for Company-Level Stock Return Prediction
- Title(参考訳): 企業レベルストックリターン予測のためのつぶやきに基づくデータセット
- Authors: Karolina Sowinska and Pranava Madhyastha
- Abstract要約: 本稿では,1日,2日,3日,および7日の株価リターンに対するツイートベースの影響を企業レベルで分析するデータセットを提案する。
我々のデータセットは、英語のtwitterから852,231のラベル付きインスタンスで構成されており、また85,176のラベル付きインスタンスのクリーン化されたサブセットをコミュニティにリリースしています。
- 参考スコア(独自算出の注目度): 8.606705921815985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Public opinion influences events, especially related to stock market
movement, in which a subtle hint can influence the local outcome of the market.
In this paper, we present a dataset that allows for company-level analysis of
tweet based impact on one-, two-, three-, and seven-day stock returns. Our
dataset consists of 862, 231 labelled instances from twitter in English, we
also release a cleaned subset of 85, 176 labelled instances to the community.
We also provide baselines using standard machine learning algorithms and a
multi-view learning based approach that makes use of different types of
features. Our dataset, scripts and models are publicly available at:
https://github.com/ImperialNLP/stockreturnpred.
- Abstract(参考訳): 世論は、特に株式市場の動きに関連する出来事に影響を与え、微妙なヒントが市場の地域的結果に影響を及ぼす可能性がある。
本稿では,1日,2日,3日,7日の株価リターンに対する企業レベルのツイートベース影響分析を可能にするデータセットを提案する。
当社のデータセットは、英語によるtwitterのラベル付きインスタンス852,231から成り、85,176のラベル付きインスタンスのクリーンなサブセットをコミュニティにリリースしています。
また、標準的な機械学習アルゴリズムと、さまざまなタイプの機能を利用するマルチビュー学習ベースのアプローチを用いたベースラインも提供しています。
私たちのデータセット、スクリプト、モデルは、https://github.com/ ImperialNLP/stockreturnpred.comで公開されています。
関連論文リスト
- A Simple Baseline for Predicting Events with Auto-Regressive Tabular Transformers [70.20477771578824]
イベント予測への既存のアプローチには、タイムアウェアな位置埋め込み、学習行とフィールドエンコーディング、クラス不均衡に対処するオーバーサンプリング方法などがある。
基本位置埋め込みと因果言語モデリングの目的を持つ標準自己回帰型LPM変換器を用いて,単純だが柔軟なベースラインを提案する。
私たちのベースラインは、一般的なデータセットで既存のアプローチよりも優れており、さまざまなユースケースに使用することができます。
論文 参考訳(メタデータ) (2024-10-14T15:59:16Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Cross-Domain Shopping and Stock Trend Analysis [0.0]
本稿では,株価,株価,Twitterの株価,およびeコマースサイトにおけるユーザの行動の関係を識別・分析することを目的としたドメイン間トレンド分析を提案する。
この分析は、米国株データセット、ストックツイートデータセット、Eコマース行動データセットの3つのデータセットに基づいている。
論文 参考訳(メタデータ) (2022-12-23T18:21:28Z) - Named Entity Recognition in Twitter: A Dataset and Analysis on
Short-Term Temporal Shifts [15.108940488494587]
我々は、Twitterで最大のソーシャルメディアプラットフォームであるNERに焦点を当て、新しいNERデータセットであるTweetNER7を構築します。
データセットは、時間をかけてツイートを慎重に分散し、代表的トレンドをベースとして構築された。
特に、分析における重要な時間的側面として、NERモデルの短期的な劣化、言語モデルを異なる期間にわたって微調整する戦略、最近ラベル付けされたデータの欠如に代わるものとしての自己ラベル付けの3つに焦点をあてる。
論文 参考訳(メタデータ) (2022-10-07T19:58:47Z) - A Novel Dataset for Evaluating and Alleviating Domain Shift for Human
Detection in Agricultural Fields [59.035813796601055]
トレーニングセットの分布外のデータに展開した場合、ドメインシフトが、よく知られたオブジェクト検出データセット上で訓練された人間の検出モデルに与える影響を評価する。
我々は、ロボットティプラットフォームを用いて、農業ロボット応用の文脈で収集されたOpenDR Humans in Fieldデータセットを紹介した。
論文 参考訳(メタデータ) (2022-09-27T07:04:28Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep
Learning Benchmarks [5.937482215664902]
ソーシャルメディアのコンテンツは、どんなアプリケーションでも直接使うにはうるさい。
効果的な消費と意思決定を促進するために、利用可能なコンテンツをフィルタリング、分類、および簡潔に要約することが重要です。
19の災害イベントで2400万ツイートのプールから抽出された77万ツイートの大規模なデータセットを紹介します。
論文 参考訳(メタデータ) (2021-04-07T12:29:36Z) - Sentiment Analysis on Social Media Content [0.0]
本研究の目的は,Twitterから収集した実データの感情分析を行うモデルを提案することである。
Twitterのデータは非常に非構造化されており、分析が困難である。
提案手法は,教師付き機械学習アルゴリズムと教師なし機械学習アルゴリズムの併用により,この分野の先行研究とは異なる。
論文 参考訳(メタデータ) (2020-07-04T17:03:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。