論文の概要: PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts
- arxiv url: http://arxiv.org/abs/2407.04541v1
- Date: Fri, 5 Jul 2024 14:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 13:10:54.651435
- Title: PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts
- Title(参考訳): PoPreRo:ルーマニアのReddit投稿の人気予測のための新しいデータセット
- Authors: Ana-Cristina Rogoz, Maria Ilinca Nechita, Radu Tudor Ionescu,
- Abstract要約: PoPreRoは、Redditから収集されたルーマニアの投稿の人気予測のための最初のデータセットである。
PoPreRoデータセットには、ルーマニアの5つの異なるサブレディットからのポストサンプルの様々なコンパイルが含まれており、合計28,107のデータサンプルが含まれている。
- 参考スコア(独自算出の注目度): 23.024346740949948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PoPreRo, the first dataset for Popularity Prediction of Romanian posts collected from Reddit. The PoPreRo dataset includes a varied compilation of post samples from five distinct subreddits of Romania, totaling 28,107 data samples. Along with our novel dataset, we introduce a set of competitive models to be used as baselines for future research. Interestingly, the top-scoring model achieves an accuracy of 61.35% and a macro F1 score of 60.60% on the test set, indicating that the popularity prediction task on PoPreRo is very challenging. Further investigations based on few-shot prompting the Falcon-7B Large Language Model also point in the same direction. We thus believe that PoPreRo is a valuable resource that can be used to evaluate models on predicting the popularity of social media posts in Romanian. We release our dataset at https://github.com/ana-rogoz/PoPreRo.
- Abstract(参考訳): Redditから収集されたルーマニア投稿の人気予測のための最初のデータセットであるPoPreRoを紹介する。
PoPreRoデータセットには、ルーマニアの5つの異なるサブレディットからのポストサンプルの様々なコンパイルが含まれており、合計28,107のデータサンプルが含まれている。
新たなデータセットとともに、将来の研究のベースラインとして使用される一連の競争モデルを紹介します。
興味深いことに、トップスコアモデルの精度は61.35%、マクロF1スコアは60.60%であり、PoPreRo上での人気予測タスクは非常に難しい。
ファルコン7Bの大規模言語モデルも同じ方向を向いている。
そこで我々は,PoPreRoがルーマニアにおけるソーシャルメディア投稿の人気予測モデルを評価する上で有用な資源であると信じている。
データセットはhttps://github.com/ana-rogoz/PoPreRoで公開しています。
関連論文リスト
- GIFT-Eval: A Benchmark For General Time Series Forecasting Model Evaluation [90.53485251837235]
時系列基礎モデルはゼロショット予測に優れ、明示的なトレーニングなしで多様なタスクを処理する。
GIFT-Evalは、多様なデータセットに対する評価を促進するための先駆的なベンチマークである。
GIFT-Evalには、144,000の時系列と17700万のデータポイントの23のデータセットが含まれている。
論文 参考訳(メタデータ) (2024-10-14T11:29:38Z) - RoQLlama: A Lightweight Romanian Adapted Language Model [2.1892046440619626]
トレーニングにQLoRAを用いることで,計算機資源の削減という課題に対処する。
我々は,量子化LDMであるRoQLlama-7bをリリースした。
ルーマニア語で単一選択の医療質問を含む新しいルーマニア語データセットRoMedQAを紹介した。
論文 参考訳(メタデータ) (2024-10-05T19:14:11Z) - Limits to Predicting Online Speech Using Large Language Models [20.215414802169967]
最近の研究は、ユーザーの仲間が書いた投稿に含まれる予測情報が、ユーザーの投稿を上回る可能性があることを示唆している。
われわれは5万人以上のXユーザー(以前はTwitter)とその仲間から625万件の投稿を集めている。
取締役会全体では、ソーシャルメディア投稿の予測可能性はまだ低く、文脈のない財務ニュースの予測に匹敵する。
論文 参考訳(メタデータ) (2024-07-08T09:50:49Z) - HistNERo: Historical Named Entity Recognition for the Romanian Language [1.5924012820163407]
HistNERoは、歴史的新聞で名前付きエンティティ認識のためのルーマニア初のコーパスである。
データセットには323kのテキストトークンが含まれており、19世紀の半分以上をカバーしている。
8人のルーマニア語話者が5つの名前のエンティティでデータセットに注釈を付けた。
論文 参考訳(メタデータ) (2024-04-30T19:05:22Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - RoDia: A New Dataset for Romanian Dialect Identification from Speech [28.458975585210947]
RoDiaはルーマニア語の方言識別のための最初のデータセットである。
ルーマニアの5つの異なる地域からの音声サンプルが含まれており、都市部と農村部の両方をカバーしている。
上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。
論文 参考訳(メタデータ) (2023-09-06T21:56:24Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z) - Domain-matched Pre-training Tasks for Dense Retrieval [68.07140087626637]
モデルサイズがますます大きくなる大規模データセットでの事前トレーニングは、ほぼすべてのNLPタスクのパフォーマンス向上のための実証済みのレシピである。
適切な事前トレーニング設定で、この障壁を克服できることが示されています。
1)最近リリースされた6500万の合成された質問セットと、既存のReddit会話のデータセットから2億のポストコメンデーションペアをトレーニングすることで、これを実証する。
論文 参考訳(メタデータ) (2021-07-28T19:13:00Z) - Spatiotemporal Relationship Reasoning for Pedestrian Intent Prediction [57.56466850377598]
視覚データに対する推論は、ロボティクスとビジョンベースのアプリケーションにとって望ましい能力である。
本稿では,歩行者の意図を推論するため,現場の異なる物体間の関係を明らかにするためのグラフ上でのフレームワークを提案する。
歩行者の意図は、通りを横切る、あるいは横断しない将来の行動として定義され、自動運転車にとって非常に重要な情報である。
論文 参考訳(メタデータ) (2020-02-20T18:50:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。