論文の概要: Topic Detection and Tracking with Time-Aware Document Embeddings
- arxiv url: http://arxiv.org/abs/2112.06166v1
- Date: Sun, 12 Dec 2021 06:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 16:22:34.401589
- Title: Topic Detection and Tracking with Time-Aware Document Embeddings
- Title(参考訳): 時間対応文書埋め込みによる話題検出と追跡
- Authors: Hang Jiang, Doug Beeferman, Weiquan Mao, Deb Roy
- Abstract要約: 我々は、時間的・テキスト的な情報をイベント検出のためのニュース文書の1つの表現に融合するニューラルネットワークを設計する。
振り返り設定では、クラスタリングアルゴリズムをタイムアウェアな埋め込みに適用し、News2013データセットのベースラインよりも大幅に改善したことを示す。
オンラインストリーミング設定では、既存の最先端のTDTパイプラインにドキュメントエンコーダを追加し、パフォーマンス全体のメリットを実証します。
- 参考スコア(独自算出の注目度): 10.093662416275695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The time at which a message is communicated is a vital piece of metadata in
many real-world natural language processing tasks such as Topic Detection and
Tracking (TDT). TDT systems aim to cluster a corpus of news articles by event,
and in that context, stories that describe the same event are likely to have
been written at around the same time. Prior work on time modeling for TDT takes
this into account, but does not well capture how time interacts with the
semantic nature of the event. For example, stories about a tropical storm are
likely to be written within a short time interval, while stories about a movie
release may appear over weeks or months. In our work, we design a neural method
that fuses temporal and textual information into a single representation of
news documents for event detection. We fine-tune these time-aware document
embeddings with a triplet loss architecture, integrate the model into
downstream TDT systems, and evaluate the systems on two benchmark TDT data sets
in English. In the retrospective setting, we apply clustering algorithms to the
time-aware embeddings and show substantial improvements over baselines on the
News2013 data set. In the online streaming setting, we add our document encoder
to an existing state-of-the-art TDT pipeline and demonstrate that it can
benefit the overall performance. We conduct ablation studies on the time
representation and fusion algorithm strategies, showing that our proposed model
outperforms alternative strategies. Finally, we probe the model to examine how
it handles recurring events more effectively than previous TDT systems.
- Abstract(参考訳): メッセージが通信される時間は、トピック検出やトラッキング(tdt)など、現実世界の多くの自然言語処理タスクにおいて重要なメタデータの一部です。
tdtシステムの目的は、ニュース記事のコーパスをイベントごとに集約することであり、そのコンテキストでは、同じイベントを記述したストーリーが、ほぼ同時に書かれた可能性が高い。
TDTの時間モデリングに関する以前の研究は、これを考慮に入れているが、イベントのセマンティックな性質と時間がどのように相互作用するかをうまく捉えていない。
例えば、熱帯の嵐に関する物語は短い期間で書かれる可能性があり、映画のリリースに関する物語は数週間から数ヶ月の間に現れる可能性がある。
本研究では,時間的およびテキスト的情報をニュース文書の単一の表現に融合してイベント検出を行うニューラル手法を設計した。
これらタイムアウェアなドキュメント埋め込みをトリプレット損失アーキテクチャで微調整し,モデルを下流のtdtシステムに統合し,2つのベンチマークtdtデータセットを英語で評価する。
振り返り設定では、クラスタリングアルゴリズムをタイムアウェアな埋め込みに適用し、News2013データセットのベースラインよりも大幅に改善したことを示す。
オンラインストリーミング設定では、既存の最先端のTDTパイプラインにドキュメントエンコーダを追加し、パフォーマンス全体のメリットを実証します。
我々は時間表現と融合アルゴリズムの戦略に関するアブレーション研究を行い、提案手法が代替戦略より優れていることを示す。
最後に,従来のTDTシステムよりも効率的に繰り返しイベントを処理する方法について検討する。
関連論文リスト
- Efficient Retrieval of Temporal Event Sequences from Textual Descriptions [0.0]
TPP-LLM-Embeddingは、自然言語記述に基づくイベントシーケンスの埋め込みと検索のための統一モデルである。
我々のモデルはイベントタイプと時間の両方をエンコードし、プールを通してシーケンスレベルの表現を生成します。
TPP-LLM-Embeddingは効率的な検索を可能にし、多様なデータセットのベースラインモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-17T21:35:55Z) - Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - Beyond Trend and Periodicity: Guiding Time Series Forecasting with Textual Cues [9.053923035530152]
本研究は,TGTSF(Text-Guided Time Series Forecasting)タスクを紹介する。
TGTSFは、チャネル記述や動的ニュースなどのテキストキューを統合することで、従来の手法の限界に対処する。
テキストキューと時系列データを相互アテンション機構を用いて融合する,堅牢なベースラインモデルである TGForecaster を提案する。
論文 参考訳(メタデータ) (2024-05-22T10:45:50Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Towards Similarity-Aware Time-Series Classification [51.2400839966489]
時系列データマイニングの基本課題である時系列分類(TSC)について検討する。
グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化するフレームワークであるSimTSCを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:14:57Z) - Topic-time Heatmaps for Human-in-the-loop Topic Detection and Tracking [3.7057859167913456]
Topic Detection and Tracking (TDT)は、ニュースメディアのコレクションを、同じ現実世界のイベントに関連するストーリーのクラスタにまとめることを目的としている。
TDTモデルを検索エンジンや発見ツールなどの実用的な応用に適用するには、関心事のコーパスの"イベント"の範囲を絞り込む必要がある。
コーパス全体の視覚的概要を生成し、ユーザーは概要から興味のある領域を選択し、選択した文書が同じイベントに属することを確認(または拒否)するために一連の質問をすることができる。
論文 参考訳(メタデータ) (2021-10-12T19:17:56Z) - Time-Series Representation Learning via Temporal and Contextual
Contrasting [14.688033556422337]
時間・文脈コントラスト(TS-TCC)を用いた教師なし時系列表現学習フレームワークを提案する。
第一に、生の時系列データは、弱い、強い拡張を用いて、2つの異なる相関するビューに変換される。
第2に,厳密な横断的予測タスクを設計することにより,頑健な時間的表現を学習するための新しい時間的コントラストモジュールを提案する。
第三に、識別的表現をさらに学習するために、時間的コントラストモジュールからコンテキスト上に構築された文脈的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2021-06-26T23:56:31Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。