論文の概要: PolitiSky24: U.S. Political Bluesky Dataset with User Stance Labels
- arxiv url: http://arxiv.org/abs/2506.07606v1
- Date: Mon, 09 Jun 2025 10:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.903692
- Title: PolitiSky24: U.S. Political Bluesky Dataset with User Stance Labels
- Title(参考訳): PolitiSky24: アメリカの政治ブルースキーデータセットとユーザースタンスラベル
- Authors: Peyman Rostami, Vahid Rahimzadeh, Ali Adibi, Azadeh Shakery,
- Abstract要約: スタンス検出は、政治的人物のような特定の対象に対してテキストで表される視点を特定する。
ブルースキーから収集された2024年アメリカ合衆国大統領選挙の姿勢検出データセットを提示する。
データセットは、エンゲージメントメタデータ、インタラクショングラフ、ユーザー投稿履歴に富んだ16,044人のユーザターゲットスタンスペアで構成されている。
- 参考スコア(独自算出の注目度): 4.748038457227373
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Stance detection identifies the viewpoint expressed in text toward a specific target, such as a political figure. While previous datasets have focused primarily on tweet-level stances from established platforms, user-level stance resources, especially on emerging platforms like Bluesky remain scarce. User-level stance detection provides a more holistic view by considering a user's complete posting history rather than isolated posts. We present the first stance detection dataset for the 2024 U.S. presidential election, collected from Bluesky and centered on Kamala Harris and Donald Trump. The dataset comprises 16,044 user-target stance pairs enriched with engagement metadata, interaction graphs, and user posting histories. PolitiSky24 was created using a carefully evaluated pipeline combining advanced information retrieval and large language models, which generates stance labels with supporting rationales and text spans for transparency. The labeling approach achieves 81\% accuracy with scalable LLMs. This resource addresses gaps in political stance analysis through its timeliness, open-data nature, and user-level perspective. The dataset is available at https://doi.org/10.5281/zenodo.15616911
- Abstract(参考訳): スタンス検出は、政治的人物のような特定の対象に対してテキストで表される視点を特定する。
以前のデータセットは、確立したプラットフォームからのツイートレベルのスタンスに重点を置いているが、ユーザレベルのスタンスリソース、特にBlueskyのような新興プラットフォームは依然として不足している。
ユーザレベルのスタンス検出は、孤立した投稿ではなく、ユーザの完全な投稿履歴を考慮することで、より包括的なビューを提供する。
我々は、2024年アメリカ合衆国大統領選挙における最初のスタンス検出データセットを、ブルースキーから収集し、カマラ・ハリスとドナルド・トランプを中心に提示する。
データセットは、エンゲージメントメタデータ、インタラクショングラフ、ユーザー投稿履歴に富んだ16,044人のユーザターゲットスタンスペアで構成されている。
PolitiSky24は、高度な情報検索と大規模言語モデルを組み合わせた、慎重に評価されたパイプラインを使用して作成され、透明性のための合理性とテキストスパンをサポートするスタンスラベルを生成する。
ラベル付け手法は、スケーラブルなLLMで81\%の精度を達成する。
このリソースは、そのタイムライン、オープンデータの性質、およびユーザーレベルの観点からの政治的スタンス分析のギャップに対処する。
データセットはhttps://doi.org/10.5281/zenodo.15616911で公開されている。
関連論文リスト
- Search Arena: Analyzing Search-Augmented LLMs [61.28673331156436]
クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。
データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。
分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2025-06-05T17:59:26Z) - When is Off-Policy Evaluation (Reward Modeling) Useful in Contextual Bandits? A Data-Centric Perspective [64.73162159837956]
ログ化されたデータセットだけで仮説的ターゲットポリシーの価値を評価することは重要だが、難しい。
データ中心のフレームワークであるDataCOPEを提案する。
医療データセットを用いたログ化された文脈的帯域設定におけるDataCOPEの実証分析により、機械学習と人間の専門家ポリシーの両方を評価する能力が確認された。
論文 参考訳(メタデータ) (2023-11-23T17:13:37Z) - CoDet: Co-Occurrence Guided Region-Word Alignment for Open-Vocabulary
Object Detection [78.0010542552784]
CoDetはオープン語彙オブジェクト検出のためのオブジェクトレベルの視覚言語表現を学習するための新しいアプローチである。
共有概念に言及するイメージをキャプションにグループ化することにより、共有概念に対応するオブジェクトは、高い共起性を示す。
CoDetは、オープン語彙検出において優れたパフォーマンスと魅力的なスケーラビリティを持っている。
論文 参考訳(メタデータ) (2023-10-25T14:31:02Z) - Multilingual estimation of political-party positioning: From label
aggregation to long-input Transformers [3.651047982634467]
我々は、政党マニフェストの自動スケーリング分析に2つのアプローチを実装し、比較する。
このタスクは最先端のモデルによって効率よく解決でき、ラベルアグリゲーションが最良の結果をもたらすことが判明した。
論文 参考訳(メタデータ) (2023-10-19T08:34:48Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - A Spanish dataset for Targeted Sentiment Analysis of political headlines [0.0]
この研究は、2019年のアルゼンチン大統領選挙で主要メディアから公開されたニュースニュースの見出しのドメインに対するターゲティング・センティメント・アナリティクス(Targeted Sentiment Analysis)の課題に対処する。
我々は、2019年の選挙の候補者を対象レベルで言及した1,976人の見出しの極性データセットを提示する。
事前訓練された言語モデルに基づく最先端分類アルゴリズムによる予備実験により,この課題に対象情報が有用であることが示唆された。
論文 参考訳(メタデータ) (2022-08-30T01:30:30Z) - Tweets2Stance: Users stance detection exploiting Zero-Shot Learning
Algorithms on Tweets [0.06372261626436675]
この研究の目的は、TwitterのパーティアカウントがTwitterで書いたことを悪用する各声明に関して、党pのスタンスを予測することである。
複数の実験から得られた結果から、Tweets2Stanceは、タスクの複雑さを考慮して、一般的な最小値である1.13の姿勢を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-04-22T14:00:11Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z) - X-Stance: A Multilingual Multi-Target Dataset for Stance Detection [42.46681912294797]
スイスの選挙候補者によるコメントから大規模な姿勢検出データセットを抽出する。
データセットはドイツ語、フランス語、イタリア語のテキストで構成されており、姿勢検出の言語横断的な評価を可能にする。
論文 参考訳(メタデータ) (2020-03-18T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。