論文の概要: TruthStance: An Annotated Dataset of Conversations on Truth Social
- arxiv url: http://arxiv.org/abs/2602.14406v1
- Date: Mon, 16 Feb 2026 02:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.047463
- Title: TruthStance: An Annotated Dataset of Conversations on Truth Social
- Title(参考訳): TruthStance: 真理社会に関する会話の注釈付きデータセット
- Authors: Fathima Ameen, Danielle Brown, Manusha Malgareddy, Amanul Haque,
- Abstract要約: 我々は2023-2025年にまたがるトゥルース社会会話スレッドの大規模データセットであるトゥルーススタンスを紹介した。
我々は、引数マイニングとクレームベースのスタンス検出にまたがる1500のインスタンスの人間による注釈付きベンチマークを提供する。
最高のパフォーマンス設定を使用して、24,352の投稿(argument presence)と107,873のコメント(親による)の追加ラベルをリリースします。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Argument mining and stance detection are central to understanding how opinions are formed and contested in online discourse. However, most publicly available resources focus on mainstream platforms such as Twitter and Reddit, leaving conversational structure on alt-tech platforms comparatively under-studied. We introduce TruthStance, a large-scale dataset of Truth Social conversation threads spanning 2023-2025, consisting of 24,378 posts and 523,360 comments with reply-tree structure preserved. We provide a human-annotated benchmark of 1,500 instances across argument mining and claim-based stance detection, including inter-annotator agreement, and use it to evaluate large language model (LLM) prompting strategies. Using the best-performing configuration, we release additional LLM-generated labels for 24,352 posts (argument presence) and 107,873 comments (stance to parent), enabling analysis of stance and argumentation patterns across depth, topics, and users. All code and data are released publicly.
- Abstract(参考訳): 論議のマイニングとスタンス検出は、オンラインの談話の中でどのように意見が形成され、争われるかを理解するために重要である。
しかし、ほとんどの公開リソースはTwitterやRedditのようなメインストリームのプラットフォームに焦点を合わせており、会話の構造は比較的研究の少ないAlt-techプラットフォームに残されている。
TruthStanceは2023-2025にまたがるトゥルース社会会話スレッドの大規模データセットであり,24,378の投稿と523,360のコメントと応答木構造を保存したコメントからなる。
議論マイニングとクレームに基づくスタンス検出を含む1500インスタンスの人為的注釈付きベンチマークを行い,それを用いて大規模言語モデル(LLM)の評価を行う。
最高のパフォーマンス設定を用いて、24,352の投稿(argument presence)と107,873のコメント(親への投稿)のためのLCM生成ラベルを追加リリースし、深さ、トピック、ユーザにわたるスタンスと議論パターンの分析を可能にします。
すべてのコードとデータは公開されています。
関連論文リスト
- A Decade of News Forum Interactions: Threaded Conversations, Signed Votes, and Topical Tags [3.443622476405787]
本稿では,オーストリアの大手新聞DerStandardのオンラインプラットフォーム上でのユーザ活動の大規模・縦断的データセットについて紹介する。
データセットは10年(2013-2022年)で、7500万以上のユーザコメント、4億以上の投票、記事やユーザインタラクションに関する詳細なメタデータが含まれている。
論文 参考訳(メタデータ) (2025-06-27T13:40:20Z) - A Benchmark for Cross-Domain Argumentative Stance Classification on Social Media [12.479554210753664]
論証的姿勢分類は、特定のトピックに対する著者の視点を特定する上で重要な役割を担っている。
既存のベンチマークは、単一のドメインからのものや、限られたトピックにフォーカスすることが多い。
我々は,人的アノテーションの必要性を回避するために,プラットフォームルール,手軽に利用可能な専門家によるコンテンツ,および大規模言語モデルを活用することを提案する。
論文 参考訳(メタデータ) (2024-10-11T15:20:11Z) - TACO -- Twitter Arguments from COnversations [3.887532996081327]
引数マイニングは、情報と推論として表される議論の構造的要素を特定することを目的としている。
TACOは、200の会話全体をカバーする1,814のツイートを利用した、Twitter Argumentsの最初のデータセットです。
われわれのデータによると、Twitterユーザーはインフォームド推論や情報に関する議論をしがちだ。
論文 参考訳(メタデータ) (2024-03-30T16:14:46Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - OpenAssistant Conversations -- Democratizing Large Language Model
Alignment [37.617080996433586]
我々は人為的な人為的注釈付き対話型コーパスであるOpenAssistant Conversationsをリリースする。
このコーパスは、全世界で13500人以上のボランティアが参加するクラウドソーシングの製品だ。
論文 参考訳(メタデータ) (2023-04-14T18:01:29Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。