論文の概要: Topic modelling discourse dynamics in historical newspapers
- arxiv url: http://arxiv.org/abs/2011.10428v1
- Date: Fri, 20 Nov 2020 14:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:48:20.546598
- Title: Topic modelling discourse dynamics in historical newspapers
- Title(参考訳): 歴史新聞における話題モデリング談話力学
- Authors: Jani Marjanen, Elaine Zosa, Simon Hengchen, Lidia Pivovarova, Mikko
Tolonen
- Abstract要約: フィンランドの比較的大規模な歴史新聞に2種類のトピックモデル(LDAとDTM)を適用する。
ケーススタディは1854年から1917年にかけてフィンランドで発行された新聞や定期刊行物に焦点をあてるが、我々の手法はどんなダイアクロニックデータにも容易に適用できる。
- 参考スコア(独自算出の注目度): 2.978993130750125
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper addresses methodological issues in diachronic data analysis for
historical research. We apply two families of topic models (LDA and DTM) on a
relatively large set of historical newspapers, with the aim of capturing and
understanding discourse dynamics. Our case study focuses on newspapers and
periodicals published in Finland between 1854 and 1917, but our method can
easily be transposed to any diachronic data. Our main contributions are a) a
combined sampling, training and inference procedure for applying topic models
to huge and imbalanced diachronic text collections; b) a discussion on the
differences between two topic models for this type of data; c) quantifying
topic prominence for a period and thus a generalization of document-wise topic
assignment to a discourse level; and d) a discussion of the role of humanistic
interpretation with regard to analysing discourse dynamics through topic
models.
- Abstract(参考訳): 本稿では,歴史研究におけるダイアクロニックデータ解析の方法論的問題に対処する。
話題モデル(LDAとDTM)の2つのファミリーを,談話力学の把握と理解を目的とした,比較的大規模な歴史新聞に適用する。
ケーススタディは1854年から1917年にかけてフィンランドで発行された新聞や定期刊行物に焦点をあてるが、我々の手法はどんなダイアクロニックデータにも容易に適用できる。
私たちの主な貢献は
イ 巨大かつ不均衡なダイアクロニックテキストコレクションに話題モデルを適用するための複合的なサンプリング、トレーニング及び推論手順
b) この種のデータに対する2つの話題モデルの違いに関する議論
c) ある期間の話題の優位性を定量化し、したがって、談話レベルへの文書的話題の割り当ての一般化
d) 話題モデルによる談話のダイナミクスの分析におけるヒューマニズム的解釈の役割に関する議論。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Twitter Topic Classification [15.306383757213956]
我々は、ツイートトピック分類に基づく新しいタスクを提案し、関連する2つのデータセットをリリースする。
ソーシャルメディアで最も重要な議論点をカバーする幅広いトピックについて、トレーニングとテストデータを提供しています。
タスク上で,現在の汎用言語モデルとドメイン固有言語モデルの定量的評価と分析を行う。
論文 参考訳(メタデータ) (2022-09-20T16:13:52Z) - Topic Discovery via Latent Space Clustering of Pretrained Language Model
Representations [35.74225306947918]
本研究では, PLM 埋め込みを基盤とした空間学習とクラスタリングの連携フレームワークを提案する。
提案モデルでは,トピック発見のためにPLMがもたらす強力な表現力と言語的特徴を効果的に活用する。
論文 参考訳(メタデータ) (2022-02-09T17:26:08Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Topic Scaling: A Joint Document Scaling -- Topic Model Approach To Learn
Time-Specific Topics [0.0]
本稿では,文書位置の尺度から時間に基づくトピックを学習する2段階アルゴリズムを実装し,シーケンシャルコーパスを研究する新しい手法を提案する。
最初の段階はWordfishを使用してドキュメントをランク付けし、関連するトピックを学ぶために依存変数として機能する文書の位置を推定します。
第二段階は、コーパス内のそれらの発生と一致するように文書スケール上の推論されたトピックをランク付けし、それらの進化を追跡します。
論文 参考訳(メタデータ) (2021-03-31T12:35:36Z) - A Topic Coverage Approach to Evaluation of Topic Models [0.0]
トピックカバレッジの測定に基づくトピックモデル評価のアプローチについて検討する。
このアプローチの利点を,一連の実験において,異なる種類のトピックモデルを評価することによって実証する。
この論文の寄稿には、カバレッジの尺度とトピック発見のためのトピックモデルの使用のための推奨事項が含まれる。
論文 参考訳(メタデータ) (2020-12-11T12:08:27Z) - Modeling Topical Relevance for Multi-Turn Dialogue Generation [61.87165077442267]
マルチターン対話におけるトピックドリフト問題に対処する新しいモデルSTAR-BTMを提案する。
バイラルトピックモデルは、トレーニングデータセット全体に基づいて事前トレーニングされ、各コンテキストのトピック表現に基づいてトピックレベルの注意重みが計算される。
中国における顧客サービスデータと英語Ubuntuの対話データの両方の実験結果から、STAR-BTMは最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-09-27T03:33:22Z) - Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。
トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文 参考訳(メタデータ) (2020-09-26T08:43:06Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Explainable and Discourse Topic-aware Neural Language Understanding [22.443597046878086]
トピックモデルと言語モデルの結婚は、文章以外の文書レベルのコンテキストのより広いソースに言語理解を公開する。
既存のアプローチでは、潜在する文書のトピックの比率を取り入れ、文書の文の話題の言説を無視する。
本稿では,潜時と説明可能なトピックと,文レベルでの話題会話を併用したニューラルコンポジット言語モデルを提案する。
論文 参考訳(メタデータ) (2020-06-18T15:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。