論文の概要: Analyzing Political Text at Scale with Online Tensor LDA
- arxiv url: http://arxiv.org/abs/2511.07809v1
- Date: Wed, 12 Nov 2025 01:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.489334
- Title: Analyzing Political Text at Scale with Online Tensor LDA
- Title(参考訳): オンラインテンソルLDAによる大規模政治テキストの分析
- Authors: Sara Kangaslahti, Danny Ebanks, Jean Kossaifi, Anqi Liu, R. Michael Alvarez, Animashree Anandkumar,
- Abstract要約: 本稿では,数十億の文書に線形にスケールするトピックモデリング手法を提案する。
本手法は, 並列化遅延ディリクレ割当法(LDA法)の3,4倍の高速化を実現するため, 計算処理とメモリ効率がよいことを示す。
我々は、政治科学者に2つの実世界、大規模な新しい研究を行ないました。
- 参考スコア(独自算出の注目度): 53.16930342547758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a topic modeling method that scales linearly to billions of documents. We make three core contributions: i) we present a topic modeling method, Tensor Latent Dirichlet Allocation (TLDA), that has identifiable and recoverable parameter guarantees and sample complexity guarantees for large data; ii) we show that this method is computationally and memory efficient (achieving speeds over 3-4x those of prior parallelized Latent Dirichlet Allocation (LDA) methods), and that it scales linearly to text datasets with over a billion documents; iii) we provide an open-source, GPU-based implementation, of this method. This scaling enables previously prohibitive analyses, and we perform two real-world, large-scale new studies of interest to political scientists: we provide the first thorough analysis of the evolution of the #MeToo movement through the lens of over two years of Twitter conversation and a detailed study of social media conversations about election fraud in the 2020 presidential election. Thus this method provides social scientists with the ability to study very large corpora at scale and to answer important theoretically-relevant questions about salient issues in near real-time.
- Abstract(参考訳): 本稿では,数十億の文書に線形にスケールするトピックモデリング手法を提案する。
私たちは3つのコアコントリビューションを行います。
一 大規模データに対するパラメータ保証及びサンプル複雑性保証を有するトピックモデリング手法、TLDA(Tensor Latent Dirichlet Allocation)を提案する。
i) この手法は, 計算およびメモリ効率が高く, 先行並列化遅延ディリクレ割当法(LDA)の3,4倍の高速化を実現し, 10億以上の文書からなるテキストデータセットに線形に拡張可能であることを示す。
三 この手法のオープンソースGPUベースの実装を提供する。
われわれは、#MeTooムーブメントの進化を、2年以上にわたるTwitter会話のレンズと、2020年の大統領選挙における選挙詐欺に関するソーシャルメディアの会話の詳細な研究を通して、初めて徹底的に分析する。
このように、この手法は社会科学者に、非常に大きなコーパスを大規模に研究し、ほぼリアルタイムで有能な問題に関する重要な理論上の疑問に答える能力を与える。
関連論文リスト
- HICode: Hierarchical Inductive Coding with LLMs [3.0013352260516744]
HICodeは、まず分析データから直接ラベルを誘導的に生成し、階層的にそれらを階層的にクラスタ化し、創発的なテーマを表面化する2部パイプラインである。
提案手法は,人間の構成したテーマとのアライメントを測定し,その頑健さを自動評価と人的評価で示すことによって,3つの多様なデータセットにまたがって検証する。
論文 参考訳(メタデータ) (2025-09-22T16:07:11Z) - Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。
しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。
本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文 参考訳(メタデータ) (2025-06-24T17:04:23Z) - A Novel, Human-in-the-Loop Computational Grounded Theory Framework for Big Social Data [8.695136686770772]
結果の信頼性とロバスト性への信頼は、"Human-in-the-loop"手法を採用することに依存している、と我々は主張する。
本稿では,大規模定性的データセットの分析を支援する計算基底理論(CGT)の方法論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-06T13:43:12Z) - Enhancing literature review with LLM and NLP methods. Algorithmic trading case [0.0]
本研究では,機械学習アルゴリズムを用いて,アルゴリズム取引分野の知識を分析し,整理する。
1956年から2020年の第1四半期にかけて、1億3600万件の研究論文のデータセットをフィルタリングして14,342件の関連記事を特定した。
論文 参考訳(メタデータ) (2024-10-23T13:37:27Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - QuaLLM: An LLM-based Framework to Extract Quantitative Insights from Online Forums [10.684484559041284]
本研究は,オンラインフォーラム上でテキストデータから量的洞察を分析し,抽出する新しいフレームワークであるQuaLLMを紹介する。
このフレームワークを適用して、Redditの2つのライドシェアワーカーコミュニティからの100万以上のコメントを分析しました。
AIとアルゴリズムのプラットフォーム決定に関する重要な労働者の懸念を明らかにし、労働者の洞察に関する規制の要求に応えました。
論文 参考訳(メタデータ) (2024-05-08T18:20:03Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。