論文の概要: Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour
Clustering Temporel de Textes
- arxiv url: http://arxiv.org/abs/2201.12568v1
- Date: Sat, 29 Jan 2022 11:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 04:48:42.678198
- Title: Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour
Clustering Temporel de Textes
- Title(参考訳): Le Processus Powered Dirichlet-Hawkes comme A Priori Flexible pour Clustering Temporel de Textes
- Authors: Ga\"el Poux-M\'edard and Julien Velcin and Sabine Loudcher
- Abstract要約: 文書の内容と公開時間に応じて文書のクラスタを作成する手法を開発した。
PDHPは、時間的情報やテキストの内容が弱い場合に、最先端のモデルよりもはるかに優れた結果をもたらす。
- 参考スコア(独自算出の注目度): 3.5450828190071655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The textual content of a document and its publication date are intertwined.
For example, the publication of a news article on a topic is influenced by
previous publications on similar issues, according to underlying temporal
dynamics. However, it can be challenging to retrieve meaningful information
when textual information conveys little. Furthermore, the textual content of a
document is not always correlated to its temporal dynamics. We develop a method
to create clusters of textual documents according to both their content and
publication time, the Powered Dirichlet-Hawkes process (PDHP). PDHP yields
significantly better results than state-of-the-art models when temporal
information or textual content is weakly informative. PDHP also alleviates the
hypothesis that textual content and temporal dynamics are perfectly correlated.
We demonstrate that PDHP generalizes previous work --such as DHP and UP.
Finally, we illustrate a possible application using a real-world dataset from
Reddit.
- Abstract(参考訳): 文書のテキスト内容とその発行日は相互に交わされる。
例えば、トピックに関するニュース記事の発行は、背景となる時間的ダイナミクスに従って、同様の問題に関する以前の出版の影響を受けている。
しかし,テキスト情報が少ない場合には,意味のある情報を検索することは困難である。
さらに、文書のテキスト内容は、その時間的ダイナミクスと必ずしも相関しない。
本稿では,その内容と公開時間に応じてテキスト文書のクラスタを作成する手法であるPowered Dirichlet-Hawkes Process (PDHP)を開発した。
PDHPは、時間的情報やテキストの内容が弱い場合に、最先端のモデルよりもはるかに優れた結果をもたらす。
PDHPはまた、テキストの内容と時間力学が完全に相関しているという仮説を緩和する。
PDHP が DHP や UP などの先行研究を一般化することを実証する。
最後に、Redditの実際のデータセットを使って可能なアプリケーションを例示する。
関連論文リスト
- Visualizing Temporal Topic Embeddings with a Compass [1.5184974790808403]
本稿では,コンパス整列時相Word2Vec手法を動的トピックモデリングに拡張することを提案する。
このような手法により、動的トピックにおける時間にわたって単語と文書の埋め込みを直接比較することができる。
論文 参考訳(メタデータ) (2024-09-16T18:29:19Z) - Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - Towards Effective Time-Aware Language Representation: Exploring Enhanced Temporal Understanding in Language Models [24.784375155633427]
BiTimeBERT 2.0は、テンポラリニュース記事コレクションに事前トレーニングされた新しい言語モデルである。
それぞれの目的は、時間情報のユニークな側面を目標としている。
その結果、BiTimeBERT 2.0はBERTや他の既存のトレーニング済みモデルよりも優れています。
論文 参考訳(メタデータ) (2024-06-04T00:30:37Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - Multivariate Powered Dirichlet Hawkes Process [3.5450828190071655]
文書の公開時間は、その意味的内容に関する関連情報を運ぶ。
Dirichlet-Hawkesプロセスは、テキスト情報と出版ダイナミクスを共同でモデル化するために提案されている。
論文 参考訳(メタデータ) (2022-12-12T15:55:57Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - Powered Hawkes-Dirichlet Process: Challenging Textual Clustering using a
Flexible Temporal Prior [2.9972063833424216]
文書の内容と公開時間に応じて文書のクラスタを作成するフレキシブルな方法を開発した。
PDHPは、時間的情報やテキストの内容が弱い場合に、最先端のモデルよりもはるかに優れた結果が得られることを示す。
PDHPは、DHP(Dichlet-Hawkes Process)やUP(Uniform Process)など、以前の作業の一般化を実証する。
論文 参考訳(メタデータ) (2021-09-15T09:10:19Z) - Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文 参考訳(メタデータ) (2021-06-09T02:12:18Z) - Joint Retrieval and Generation Training for Grounded Text Generation [75.11057157342974]
基底生成モデルは救済策を提供するように見えるが、トレーニングは通常、まれな並列データに依存している。
本研究では,言語モデル信号に接地生成器と文書検索器を共同で訓練することにより,この制約を緩和するフレームワークを提案する。
提案手法は,外部参照を活用することで,文末生成と対話生成の両面で,より情報に富んだ興味深いテキストを生成できることを実証する。
論文 参考訳(メタデータ) (2021-05-14T00:11:38Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。