論文の概要: Distributed Asymmetric Allocation: A Topic Model for Large Imbalanced Corpora in Social Sciences
- arxiv url: http://arxiv.org/abs/2512.18119v1
- Date: Fri, 19 Dec 2025 22:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.193524
- Title: Distributed Asymmetric Allocation: A Topic Model for Large Imbalanced Corpora in Social Sciences
- Title(参考訳): 分散非対称配置 : 社会科学における大規模不均衡コーパスのトピックモデル
- Authors: Kohei Watanabe,
- Abstract要約: 私は分散非対称アロケーション(DAA)と呼ばれる新しいトピックモデルを開発した。
DAAは、大きなコーパスにおいて重要なトピックに関する文を効率的に識別する複数のアルゴリズムを統合する。
1991年から2017年にかけての国連総会での演説の書き起こしに合わせることで、DAAが政治的に重要なトピックを識別する能力を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social scientists employ latent Dirichlet allocation (LDA) to find highly specific topics in large corpora, but they often struggle in this task because (1) LDA, in general, takes a significant amount of time to fit on large corpora; (2) unsupervised LDA fragments topics into sub-topics in short documents; (3) semi-supervised LDA fails to identify specific topics defined using seed words. To solve these problems, I have developed a new topic model called distributed asymmetric allocation (DAA) that integrates multiple algorithms for efficiently identifying sentences about important topics in large corpora. I evaluate the ability of DAA to identify politically important topics by fitting it to the transcripts of speeches at the United Nations General Assembly between 1991 and 2017. The results show that DAA can classify sentences significantly more accurately and quickly than LDA thanks to the new algorithms. More generally, the results demonstrate that it is important for social scientists to optimize Dirichlet priors of LDA to perform content analysis accurately.
- Abstract(参考訳): 社会科学者は遅延ディリクレ割当(LDA)を用いて大きなコーパスで高度に特定のトピックを見つけるが、(1)LDAは一般に大きなコーパスに収まるのにかなりの時間を要するため、しばしばこの課題に苦慮する。
これらの問題を解決するために,分散非対称アロケーション(DAA)と呼ばれる新しいトピックモデルを開発し,大規模コーパスにおける重要なトピックに関する文を効率的に識別する複数のアルゴリズムを統合した。
1991年から2017年にかけての国連総会での演説の書き起こしに合わせることで、DAAが政治的に重要なトピックを識別する能力を評価する。
その結果,新たなアルゴリズムにより,DAAはLDAよりも格段に正確かつ迅速に文を分類できることがわかった。
より一般的には、社会科学者がLDAのディリクレ先行を最適化し、コンテンツ分析を正確に行うことが重要であることが示されている。
関連論文リスト
- Quantifying consistency and accuracy of Latent Dirichlet Allocation [2.099922236065961]
確率論的トピックモデルは、その性質により再実行時に異なる結果を生成することができ、潜在トピックの不整合を引き起こす。
この不安定性は、複製性、信頼性、解釈に影響を与え、トピックモデルが意味のあるトピックをキャプチャするかどうか、あるいは単にノイズをキャプチャするかどうかに関する懸念を提起する。
LDAが文書中のトピック数を正確に決定できることが示される。
論文 参考訳(メタデータ) (2025-11-17T00:44:27Z) - Analyzing Political Text at Scale with Online Tensor LDA [53.16930342547758]
本稿では,数十億の文書に線形にスケールするトピックモデリング手法を提案する。
本手法は, 並列化遅延ディリクレ割当法(LDA法)の3,4倍の高速化を実現するため, 計算処理とメモリ効率がよいことを示す。
我々は、政治科学者に2つの実世界、大規模な新しい研究を行ないました。
論文 参考訳(メタデータ) (2025-11-11T03:58:48Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - What Constitutes a Less Discriminatory Algorithm? [2.842548870013324]
形式的なLDA定義は、保持データがない場合に予測モデルを評価し、比較しようとすると、根本的な問題に直面します。
当社は、企業と原告の両方が、社会的目標に合う代替モデルを検索できる枠組みを提唱した。
論文 参考訳(メタデータ) (2024-12-24T03:49:48Z) - The LLM Effect: Are Humans Truly Using LLMs, or Are They Being Influenced By Them Instead? [60.01746782465275]
大規模言語モデル(LLM)は、様々な分析タスクにおいて、人間のパフォーマンスに近い能力を示している。
本稿では,Human-LLMパートナーシップに着目した構造化ユーザスタディにより,特殊作業におけるLLMの効率と精度について検討する。
論文 参考訳(メタデータ) (2024-10-07T02:30:18Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - Algorithm-Dependent Bounds for Representation Learning of Multi-Source
Domain Adaptation [7.6249291891777915]
我々は情報理論ツールを用いて、表現学習の観点からMDA(Multi-source Domain Adaptation)の新たな分析を導出する。
本稿では,結合アライメントによる目標シフトに暗黙的に対処する,新しい深度MDAアルゴリズムを提案する。
提案アルゴリズムは、目標シフトしたMDAベンチマークの最先端性能に匹敵し、メモリ効率が向上した。
論文 参考訳(メタデータ) (2023-04-04T18:32:20Z) - Goal Driven Discovery of Distributional Differences via Language
Descriptions [58.764821647036946]
大きなコーパスを採掘することは有用な発見をもたらすが、人間には時間がかかる。
我々は、ゴール駆動方式で2つの大きなコーパス間の差異を自動的に発見する新しいタスクD5を定式化する。
本稿では,OpenD5 の幅広い応用について,これまで不明な発見を著者に提示する。
論文 参考訳(メタデータ) (2023-02-28T01:32:32Z) - Full-Text Argumentation Mining on Scientific Publications [3.8754200816873787]
フルテキストSAMに対してADURとAREを組み合わせた逐次パイプラインモデルを提案する。
両サブタスクにおける事前学習言語モデル(PLM)の性能について,最初の解析を行った。
本稿では,非連続型ADUと談話コネクタの解釈が重要な課題であることを示す。
論文 参考訳(メタデータ) (2022-10-24T10:05:30Z) - EvaLDA: Efficient Evasion Attacks Towards Latent Dirichlet Allocation [9.277398460006394]
ラテント・ディリクレ配置モデルが推論時間における逆摂動に対して脆弱かどうかを検討する。
そこで我々は,新しい効率的なアルゴリズムであるevaldaを提案する。
私たちの仕事は、LDAモデルへの回避攻撃の力と制限に関する重要な洞察を提供します。
論文 参考訳(メタデータ) (2020-12-09T04:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。