論文の概要: From Noise to Signal: When Outliers Seed New Topics
- arxiv url: http://arxiv.org/abs/2603.18358v1
- Date: Wed, 18 Mar 2026 23:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.884945
- Title: From Noise to Signal: When Outliers Seed New Topics
- Title(参考訳): ノイズから信号へ:外付け機が新しい話題を呼んだとき
- Authors: Evangelia Zve, Gauvain Bourgne, Benjamin Icard, Jean-Gabriel Ganascia,
- Abstract要約: 動的トピックモデリングにおける外乱は一般的にノイズとして扱われるが、新しいトピックの早期のシグナルとして機能するものもある。
本稿では,文書が時間とともに話題形成とどのように関連しているかを規定する,ニュース文書トラジェクトリの時間的分類について紹介する。
- 参考スコア(独自算出の注目度): 0.4977593448452647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Outliers in dynamic topic modeling are typically treated as noise, yet we show that some can serve as early signals of emerging topics. We introduce a temporal taxonomy of news-document trajectories that defines how documents relate to topic formation over time. It distinguishes anticipatory outliers, which precede the topics they later join, from documents that either reinforce existing topics or remain isolated. By capturing these trajectories, the taxonomy links weak-signal detection with temporal topic modeling and clarifies how individual articles anticipate, initiate, or drift within evolving clusters. We implement it in a cumulative clustering setting using document embeddings from eleven state-of-the-art language models and evaluate it retrospectively on HydroNewsFr, a French news corpus on the hydrogen economy. Inter-model agreement reveals a small, high-consensus subset of anticipatory outliers, increasing confidence in these labels. Qualitative case studies further illustrate these trajectories through concrete topic developments.
- Abstract(参考訳): 動的トピックモデリングにおける外乱は一般的にノイズとして扱われるが、新しいトピックの早期のシグナルとして機能するものもある。
本稿では,文書が時間とともに話題形成とどのように関連しているかを規定する,ニュース文書トラジェクトリの時間的分類について紹介する。
これは、後続のトピックに先行する予想外のアウトリーチを、既存のトピックを補強するか、孤立し続ける文書と区別する。
これらの軌跡を捉えることで、分類学は弱い信号検出と時間的話題モデリングを結びつけ、個々の記事がどのように進化するクラスタ内で予測、開始、または漂流するかを明確にする。
我々は,11の最先端言語モデルからの文書埋め込みを用いた累積クラスタリング環境で実装し,水素経済に関するフランスのニュースコーパスであるHydroNewsFr上で遡って評価する。
モデル間合意により、予測外乱の小さな、高合意のサブセットが明らかとなり、これらのラベルへの信頼が高まる。
定性的なケーススタディは、具体的なトピック開発を通して、これらの軌跡をさらに説明します。
関連論文リスト
- Interactive Topic Models with Optimal Transport [75.26555710661908]
ラベル名監視型トピックモデリングのためのアプローチとして,EdTMを提案する。
EdTMは、LM/LLMベースのドキュメントトピック親和性を活用しながら、代入問題としてのトピックモデリングをモデル化する。
論文 参考訳(メタデータ) (2024-06-28T13:57:27Z) - Conflicts, Villains, Resolutions: Towards models of Narrative Media
Framing [19.589945994234075]
我々は、物語の要素を明示的に捉えたコミュニケーション科学から、広く使われているフレーミングの概念化を再考する。
我々は、複雑なアノテーションタスクをより単純なバイナリー質問に分解する効果的なアノテーションパラダイムを適用します。
教師付きおよび半教師付きアプローチによるフレームの自動マルチラベル予測について検討する。
論文 参考訳(メタデータ) (2023-06-03T08:50:13Z) - ANTM: An Aligned Neural Topic Model for Exploring Evolving Topics [1.854328133293073]
本稿では、アラインドニューラルトピックモデル(ANTM)と呼ばれる動的トピックモデルのアルゴリズム系を提案する。
ANTMは、新しいデータマイニングアルゴリズムを組み合わせて、進化するトピックを発見するためのモジュラーフレームワークを提供する。
Pythonパッケージは、大規模テキストデータにおけるトピックのトレンドと進化パターンを研究したい研究者や科学者のために開発されている。
論文 参考訳(メタデータ) (2023-02-03T02:31:12Z) - Temporal Analysis on Topics Using Word2Vec [0.0]
本研究では,トレンド検出と可視化の新しい手法を提案する。具体的には,話題の変化を時間とともにモデル化する。
この手法は、20のNews Groupsデータセットに存在する様々なメディアハウスの記事群でテストされた。
論文 参考訳(メタデータ) (2022-09-23T16:51:29Z) - Knowledge-Aware Bayesian Deep Topic Model [50.58975785318575]
本稿では,事前知識を階層型トピックモデリングに組み込むベイズ生成モデルを提案する。
提案モデルでは,事前知識を効率的に統合し,階層的なトピック発見と文書表現の両面を改善する。
論文 参考訳(メタデータ) (2022-09-20T09:16:05Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z) - Topic Scaling: A Joint Document Scaling -- Topic Model Approach To Learn
Time-Specific Topics [0.0]
本稿では,文書位置の尺度から時間に基づくトピックを学習する2段階アルゴリズムを実装し,シーケンシャルコーパスを研究する新しい手法を提案する。
最初の段階はWordfishを使用してドキュメントをランク付けし、関連するトピックを学ぶために依存変数として機能する文書の位置を推定します。
第二段階は、コーパス内のそれらの発生と一致するように文書スケール上の推論されたトピックをランク付けし、それらの進化を追跡します。
論文 参考訳(メタデータ) (2021-03-31T12:35:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。