論文の概要: Powered Hawkes-Dirichlet Process: Challenging Textual Clustering using a
Flexible Temporal Prior
- arxiv url: http://arxiv.org/abs/2109.07170v1
- Date: Wed, 15 Sep 2021 09:10:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 23:10:26.687014
- Title: Powered Hawkes-Dirichlet Process: Challenging Textual Clustering using a
Flexible Temporal Prior
- Title(参考訳): パワーホークス・ディリクレプロセス:柔軟な時間前処理によるテキストクラスタリング
- Authors: Ga\"el Poux-M\'edard, Julien Velcin, Sabine Loudcher
- Abstract要約: 文書の内容と公開時間に応じて文書のクラスタを作成するフレキシブルな方法を開発した。
PDHPは、時間的情報やテキストの内容が弱い場合に、最先端のモデルよりもはるかに優れた結果が得られることを示す。
PDHPは、DHP(Dichlet-Hawkes Process)やUP(Uniform Process)など、以前の作業の一般化を実証する。
- 参考スコア(独自算出の注目度): 2.9972063833424216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The textual content of a document and its publication date are intertwined.
For example, the publication of a news article on a topic is influenced by
previous publications on similar issues, according to underlying temporal
dynamics. However, it can be challenging to retrieve meaningful information
when textual information conveys little information or when temporal dynamics
are hard to unveil. Furthermore, the textual content of a document is not
always linked to its temporal dynamics. We develop a flexible method to create
clusters of textual documents according to both their content and publication
time, the Powered Dirichlet-Hawkes process (PDHP). We show PDHP yields
significantly better results than state-of-the-art models when temporal
information or textual content is weakly informative. The PDHP also alleviates
the hypothesis that textual content and temporal dynamics are always perfectly
correlated. PDHP allows retrieving textual clusters, temporal clusters, or a
mixture of both with high accuracy when they are not. We demonstrate that PDHP
generalizes previous work --such as the Dirichlet-Hawkes process (DHP) and
Uniform process (UP). Finally, we illustrate the changes induced by PDHP over
DHP and UP in a real-world application using Reddit data.
- Abstract(参考訳): 文書のテキスト内容とその発行日は相互に交わされる。
例えば、トピックに関するニュース記事の発行は、背景となる時間的ダイナミクスに従って、同様の問題に関する以前の出版の影響を受けている。
しかし、テキスト情報がほとんど情報を伝える場合や、時間的ダイナミクスの公開が難しい場合、意味のある情報を検索することは困難である。
さらに、文書のテキスト内容は、その時間的ダイナミクスと必ずしも関連付けられていない。
我々は,その内容と公開時間に応じて文書のクラスタを作成する柔軟な方法,Powered Dirichlet-Hawkes Process (PDHP) を開発した。
時間情報やテキストの内容が弱い場合、pdhpは最先端モデルよりも優れた結果が得られることを示す。
pdhpはまた、テクストコンテンツとテンポラリダイナミクスが常に完全に相関しているという仮説を緩和する。
PDHPは、テキストクラスタ、時間クラスタ、あるいは両者の混合を、それらがそうでないときに高い精度で取得することができる。
PDHPはディリクレ・ホークス・プロセス (DHP) やユニフォーム・プロセス (UP) といった従来の作業の一般化を実証する。
最後に,pdhp が dhp と up で引き起こした変化を reddit データを用いた実世界アプリケーションで紹介する。
関連論文リスト
- Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - Towards Effective Time-Aware Language Representation: Exploring Enhanced Temporal Understanding in Language Models [24.784375155633427]
BiTimeBERT 2.0は、テンポラリニュース記事コレクションに事前トレーニングされた新しい言語モデルである。
それぞれの目的は、時間情報のユニークな側面を目標としている。
その結果、BiTimeBERT 2.0はBERTや他の既存のトレーニング済みモデルよりも優れています。
論文 参考訳(メタデータ) (2024-06-04T00:30:37Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Multivariate Powered Dirichlet Hawkes Process [3.5450828190071655]
文書の公開時間は、その意味的内容に関する関連情報を運ぶ。
Dirichlet-Hawkesプロセスは、テキスト情報と出版ダイナミクスを共同でモデル化するために提案されている。
論文 参考訳(メタデータ) (2022-12-12T15:55:57Z) - Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour
Clustering Temporel de Textes [3.5450828190071655]
文書の内容と公開時間に応じて文書のクラスタを作成する手法を開発した。
PDHPは、時間的情報やテキストの内容が弱い場合に、最先端のモデルよりもはるかに優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-01-29T11:48:45Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Recurrent Coupled Topic Modeling over Sequential Documents [33.35324412209806]
現在のトピックは、結合重みが対応するすべてのトピックから進化し、マルチトピック・スレッドの進化を形成することを示す。
進化するトピック間のマルチカップリングを解消する,新しいデータ拡張手法を用いた新しいソリューションを提案する。
後方フィルタアルゴリズムを備えた新しいギブスサンプリング器は、閉形式の潜時時間パラメータを効率的に学習する。
論文 参考訳(メタデータ) (2021-06-23T08:58:13Z) - Joint Retrieval and Generation Training for Grounded Text Generation [75.11057157342974]
基底生成モデルは救済策を提供するように見えるが、トレーニングは通常、まれな並列データに依存している。
本研究では,言語モデル信号に接地生成器と文書検索器を共同で訓練することにより,この制約を緩和するフレームワークを提案する。
提案手法は,外部参照を活用することで,文末生成と対話生成の両面で,より情報に富んだ興味深いテキストを生成できることを実証する。
論文 参考訳(メタデータ) (2021-05-14T00:11:38Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。