論文の概要: A Decade of News Forum Interactions: Threaded Conversations, Signed Votes, and Topical Tags
- arxiv url: http://arxiv.org/abs/2506.22224v1
- Date: Fri, 27 Jun 2025 13:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.217734
- Title: A Decade of News Forum Interactions: Threaded Conversations, Signed Votes, and Topical Tags
- Title(参考訳): ニュースフォーラムの対話の10年 - スレッド化された会話、署名された投票、トピックタグ
- Authors: Emma Fraxanet, Vicenç Gómez, Andreas Kaltenbrunner, Max Pellert,
- Abstract要約: 本稿では,オーストリアの大手新聞DerStandardのオンラインプラットフォーム上でのユーザ活動の大規模・縦断的データセットについて紹介する。
データセットは10年(2013-2022年)で、7500万以上のユーザコメント、4億以上の投票、記事やユーザインタラクションに関する詳細なメタデータが含まれている。
- 参考スコア(独自算出の注目度): 3.443622476405787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a large-scale, longitudinal dataset capturing user activity on the online platform of DerStandard, a major Austrian newspaper. The dataset spans ten years (2013-2022) and includes over 75 million user comments, more than 400 million votes, and detailed metadata on articles and user interactions. It provides structured conversation threads, explicit up- and downvotes of user comments and editorial topic labels, enabling rich analyses of online discourse while preserving user privacy. To ensure this privacy, all persistent identifiers are anonymized using salted hash functions, and the raw comment texts are not publicly shared. Instead, we release pre-computed vector representations derived from a state-of-the-art embedding model. The dataset supports research on discussion dynamics, network structures, and semantic analyses in the mid-resourced language German, offering a reusable resource across computational social science and related fields.
- Abstract(参考訳): 本稿では,オーストリアの大手新聞DerStandardのオンラインプラットフォーム上でのユーザ活動の大規模・縦断的データセットを提案する。
データセットは10年(2013-2022年)で、7500万以上のユーザコメント、4億以上の投票、記事やユーザインタラクションに関する詳細なメタデータが含まれている。
構造化された会話スレッド、ユーザコメントの明示的なアップ・アンド・ダウンボイト、編集トピックラベルを提供し、ユーザのプライバシーを維持しながらオンライン談話の豊富な分析を可能にする。
このプライバシーを確保するため、すべての永続的な識別子は塩分処理されたハッシュ関数を使って匿名化され、生のコメントテキストは公開されていない。
代わりに、最先端の埋め込みモデルから導かれる事前計算ベクター表現をリリースする。
このデータセットは、ミッドリソース言語ドイツ語における議論のダイナミクス、ネットワーク構造、セマンティック分析の研究をサポートし、計算社会科学と関連分野にまたがる再利用可能なリソースを提供する。
関連論文リスト
- Enhanced Semantic Graph Based Approach With Sentiment Analysis For User Interest Retrieval From Social Sites [0.0]
セマンティックグラフに基づくアプローチは、クライアントやユーザの参照を、ツイートなどの自身のテキストを分析して識別する研究手法である。
調査や評価などのインターネット関連のユーザアクティビティを必要とせず、ユーザの関心に関連する情報を収集する。
論文 参考訳(メタデータ) (2024-08-08T11:58:41Z) - Recent Trends in Personalized Dialogue Generation: A Review of Datasets, Methodologies, and Evaluations [25.115319934091282]
本稿では,近年の対話生成のパーソナライズ化の状況について調査する。
22のデータセットをカバーし、ベンチマークデータセットと、追加機能に富んだ新しいデータセットを強調します。
2021年から2023年の間、トップカンファレンスから17のセミナー作品を分析し、5つの異なるタイプの問題を識別する。
論文 参考訳(メタデータ) (2024-05-28T09:04:13Z) - A Public and Reproducible Assessment of the Topics API on Real Data [1.1510009152620668]
Topics API for the Webは、サードパーティのクッキーに代わる、Googleのプライバシ向上のためのAPIだ。
以前の作業の結果、ユーティリティとプライバシの両方をトレードオフするトピクスの能力に関する議論が続いている。
本稿では,Topicsがすべてのユーザに対して同じプライバシー保証を提供していない,情報漏洩が時間とともに悪化する,という実データについて述べる。
論文 参考訳(メタデータ) (2024-03-28T17:03:44Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Constructing Colloquial Dataset for Persian Sentiment Analysis of Social
Microblogs [0.0]
本稿ではまず,ITRC-Opinionというユーザ意見データセットを協調的かつインソース的に構築する。
私たちのデータセットには、TwitterやInstagramといったソーシャルなマイクロブログから、6万の非公式で口語的なペルシア語のテキストが含まれています。
次に,畳み込みニューラルネットワーク(CNN)モデルに基づく新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-22T05:51:22Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。