論文の概要: Automating Historical Insight Extraction from Large-Scale Newspaper Archives via Neural Topic Modeling
- arxiv url: http://arxiv.org/abs/2512.11635v1
- Date: Fri, 12 Dec 2025 15:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.820084
- Title: Automating Historical Insight Extraction from Large-Scale Newspaper Archives via Neural Topic Modeling
- Title(参考訳): ニューラルトピックモデリングによる大規模新聞アーカイブからの歴史的洞察抽出の自動化
- Authors: Keerthana Murugaraj, Salima Lamsiyah, Marten During, Martin Theobald,
- Abstract要約: 本研究は、1955年から2018年までの論文、特に原子力と原子力の安全性に関する談話に焦点を当てたものである。
コーパス全体にわたる様々なトピック分布を分析し,その時間的進化を辿り,公衆談話の長期的傾向と変化を明らかにする。
これにより、原子力や核兵器に関するテーマの共起や、時間とともに重要となる話題の変化など、公共の話題におけるパターンをより正確に探求することが可能になります。
- 参考スコア(独自算出の注目度): 1.4322802933929257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting coherent and human-understandable themes from large collections of unstructured historical newspaper archives presents significant challenges due to topic evolution, Optical Character Recognition (OCR) noise, and the sheer volume of text. Traditional topic-modeling methods, such as Latent Dirichlet Allocation (LDA), often fall short in capturing the complexity and dynamic nature of discourse in historical texts. To address these limitations, we employ BERTopic. This neural topic-modeling approach leverages transformerbased embeddings to extract and classify topics, which, despite its growing popularity, still remains underused in historical research. Our study focuses on articles published between 1955 and 2018, specifically examining discourse on nuclear power and nuclear safety. We analyze various topic distributions across the corpus and trace their temporal evolution to uncover long-term trends and shifts in public discourse. This enables us to more accurately explore patterns in public discourse, including the co-occurrence of themes related to nuclear power and nuclear weapons and their shifts in topic importance over time. Our study demonstrates the scalability and contextual sensitivity of BERTopic as an alternative to traditional approaches, offering richer insights into historical discourses extracted from newspaper archives. These findings contribute to historical, nuclear, and social-science research while reflecting on current limitations and proposing potential directions for future work.
- Abstract(参考訳): 構造化されていない新聞アーカイブの膨大なコレクションから、一貫性と人間の理解を欠くテーマを抽出することは、話題の進化、光学的文字認識(OCR)ノイズ、大量のテキストによる重大な課題を呈している。
ラテント・ディリクレ・アロケーション(LDA)のような伝統的なトピック・モデリング手法は、歴史文書における言論の複雑さとダイナミックな性質を捉えるのに不足することが多い。
これらの制限に対処するために、BERTopicを使用します。
このニューラルなトピックモデリングアプローチは、トランスフォーマーベースの埋め込みを利用してトピックを抽出し分類する。
本研究は、1955年から2018年までの論文、特に原子力と原子力の安全性に関する談話に焦点を当てたものである。
コーパス全体にわたる様々なトピック分布を分析し,その時間的進化を辿り,公衆談話の長期的傾向と変化を明らかにする。
これにより、原子力や核兵器に関するテーマの共起や、時間とともに重要となる話題の変化など、公共の話題におけるパターンをより正確に探求することが可能になります。
本研究は,従来の手法の代替としてBERTopicのスケーラビリティと文脈感度を実証し,新聞アーカイブから抽出した歴史談話についてより深い知見を提供する。
これらの発見は、現在の限界を反映しつつ、歴史、核、社会科学の研究に寄与し、将来の研究に向けた潜在的方向性を提案している。
関連論文リスト
- DiscoSum: Discourse-aware News Summarization [79.4884227574627]
本稿では,談話構造を要約プロセスに統合するための新しいアプローチを提案する。
本稿では,ソーシャルメディアプラットフォーム間で,ニュース記事が複数回,異なる方法で要約される新しい要約データセットを提案する。
本研究では、要約構造を記述するための新しいニュース談話スキーマと、構造認識要約にビームサーチ技術を用いる新しいアルゴリズムであるディスコサムを開発する。
論文 参考訳(メタデータ) (2025-06-07T22:00:30Z) - Talking Point based Ideological Discourse Analysis in News Events [62.18747509565779]
本稿では,イデオロギー的談話分析理論をモチベーションとして,実世界の出来事に関するニュース記事を分析する枠組みを提案する。
我々のフレームワークは,話題のトピックとともに,エンティティ,役割,メディアフレーム間の相互作用を捉えた,会話ポイントという関係構造を用いたニュース記事を表現している。
我々は,人間の検証によって補足されたイデオロギーや分派的分類タスクを通じて,これらの視点を自動で生成するフレームワークの能力を評価する。
論文 参考訳(メタデータ) (2025-04-10T02:52:34Z) - A Large Language Model Guided Topic Refinement Mechanism for Short Text Modeling [10.589126787499973]
既存のトピックモデルは、しばしば短いテキストの根底にあるセマンティックなパターンを正確に捉えるのに苦労する。
本稿では,トピックリファインメント(Topic Refinement)と呼ばれる新しいモデル非依存機構を提案する。
トピックリファインメントによりトピックの品質が向上し、トピック関連テキスト分類タスクのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-03-26T13:50:34Z) - Discovering Latent Themes in Social Media Messaging: A Machine-in-the-Loop Approach Integrating LLMs [22.976609127865732]
ソーシャルメディアメッセージングにおける潜在テーマを明らかにするための新しいアプローチを提案する。
私たちの仕事は、ソーシャルメディアのダイナミックな性質に光を当て、現実の出来事に対するメッセージのテーマ的焦点の変化を明らかにします。
論文 参考訳(メタデータ) (2024-03-15T21:54:00Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - ANTM: An Aligned Neural Topic Model for Exploring Evolving Topics [1.854328133293073]
本稿では、アラインドニューラルトピックモデル(ANTM)と呼ばれる動的トピックモデルのアルゴリズム系を提案する。
ANTMは、新しいデータマイニングアルゴリズムを組み合わせて、進化するトピックを発見するためのモジュラーフレームワークを提供する。
Pythonパッケージは、大規模テキストデータにおけるトピックのトレンドと進化パターンを研究したい研究者や科学者のために開発されている。
論文 参考訳(メタデータ) (2023-02-03T02:31:12Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - An NLP approach to quantify dynamic salience of predefined topics in a
text corpus [0.0]
我々は自然言語処理技術を用いて、テキストの大規模なコーパスを通して、ある定義済みの関心トピックの集合が時間とともにどのように変化するかの定量化を行う。
事前定義されたトピックが与えられたら、それらのトピックにマップされ、通常のベースラインから逸脱する利用パターンを持つ、用語の集合(n-gram)を識別してランク付けできる。
論文 参考訳(メタデータ) (2021-08-16T21:00:06Z) - Topic modelling discourse dynamics in historical newspapers [2.978993130750125]
フィンランドの比較的大規模な歴史新聞に2種類のトピックモデル(LDAとDTM)を適用する。
ケーススタディは1854年から1917年にかけてフィンランドで発行された新聞や定期刊行物に焦点をあてるが、我々の手法はどんなダイアクロニックデータにも容易に適用できる。
論文 参考訳(メタデータ) (2020-11-20T14:51:07Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。