論文の概要: Topic Detection and Tracking with Time-Aware Document Embeddings
- arxiv url: http://arxiv.org/abs/2112.06166v1
- Date: Sun, 12 Dec 2021 06:25:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 16:22:34.401589
- Title: Topic Detection and Tracking with Time-Aware Document Embeddings
- Title(参考訳): 時間対応文書埋め込みによる話題検出と追跡
- Authors: Hang Jiang, Doug Beeferman, Weiquan Mao, Deb Roy
- Abstract要約: 我々は、時間的・テキスト的な情報をイベント検出のためのニュース文書の1つの表現に融合するニューラルネットワークを設計する。
振り返り設定では、クラスタリングアルゴリズムをタイムアウェアな埋め込みに適用し、News2013データセットのベースラインよりも大幅に改善したことを示す。
オンラインストリーミング設定では、既存の最先端のTDTパイプラインにドキュメントエンコーダを追加し、パフォーマンス全体のメリットを実証します。
- 参考スコア(独自算出の注目度): 10.093662416275695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The time at which a message is communicated is a vital piece of metadata in
many real-world natural language processing tasks such as Topic Detection and
Tracking (TDT). TDT systems aim to cluster a corpus of news articles by event,
and in that context, stories that describe the same event are likely to have
been written at around the same time. Prior work on time modeling for TDT takes
this into account, but does not well capture how time interacts with the
semantic nature of the event. For example, stories about a tropical storm are
likely to be written within a short time interval, while stories about a movie
release may appear over weeks or months. In our work, we design a neural method
that fuses temporal and textual information into a single representation of
news documents for event detection. We fine-tune these time-aware document
embeddings with a triplet loss architecture, integrate the model into
downstream TDT systems, and evaluate the systems on two benchmark TDT data sets
in English. In the retrospective setting, we apply clustering algorithms to the
time-aware embeddings and show substantial improvements over baselines on the
News2013 data set. In the online streaming setting, we add our document encoder
to an existing state-of-the-art TDT pipeline and demonstrate that it can
benefit the overall performance. We conduct ablation studies on the time
representation and fusion algorithm strategies, showing that our proposed model
outperforms alternative strategies. Finally, we probe the model to examine how
it handles recurring events more effectively than previous TDT systems.
- Abstract(参考訳): メッセージが通信される時間は、トピック検出やトラッキング(tdt)など、現実世界の多くの自然言語処理タスクにおいて重要なメタデータの一部です。
tdtシステムの目的は、ニュース記事のコーパスをイベントごとに集約することであり、そのコンテキストでは、同じイベントを記述したストーリーが、ほぼ同時に書かれた可能性が高い。
TDTの時間モデリングに関する以前の研究は、これを考慮に入れているが、イベントのセマンティックな性質と時間がどのように相互作用するかをうまく捉えていない。
例えば、熱帯の嵐に関する物語は短い期間で書かれる可能性があり、映画のリリースに関する物語は数週間から数ヶ月の間に現れる可能性がある。
本研究では,時間的およびテキスト的情報をニュース文書の単一の表現に融合してイベント検出を行うニューラル手法を設計した。
これらタイムアウェアなドキュメント埋め込みをトリプレット損失アーキテクチャで微調整し,モデルを下流のtdtシステムに統合し,2つのベンチマークtdtデータセットを英語で評価する。
振り返り設定では、クラスタリングアルゴリズムをタイムアウェアな埋め込みに適用し、News2013データセットのベースラインよりも大幅に改善したことを示す。
オンラインストリーミング設定では、既存の最先端のTDTパイプラインにドキュメントエンコーダを追加し、パフォーマンス全体のメリットを実証します。
我々は時間表現と融合アルゴリズムの戦略に関するアブレーション研究を行い、提案手法が代替戦略より優れていることを示す。
最後に,従来のTDTシステムよりも効率的に繰り返しイベントを処理する方法について検討する。
関連論文リスト
- A Strong Baseline for Temporal Video-Text Alignment [67.0514869855102]
最適なタイムスタンプを推測するために、すべてのテキストをクエリとしてTransformerベースのアーキテクチャを採用する、シンプルで強力なモデルを構築します。
i)音声認識による誤りの低減のためのASRシステムのアップグレード効果,(ii)CLIPからS3D,さらに最近のInternVideoまで,様々な視覚的テクスチャバックボーンの効果について,徹底的な実験を行った。
提案手法は,ナレーションアライメントと手続き的ステップグラウンド処理の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Structured, Complex and Time-complete Temporal Event Forecasting [66.17005554335029]
時間的イベント予測は、歴史で観測された出来事から次に何が起こるかを予測することを目的としている。
それまでの時間的事象の定式化は、非構造的、原子的、あるいは完全な時間的情報が欠如している。
SCTc-TE(Structured, Complex, and Time-complete Temporal Event)の新たな定式化について紹介する。
論文 参考訳(メタデータ) (2023-12-02T07:40:21Z) - Tweet Insights: A Visualization Platform to Extract Temporal Insights
from Twitter [19.591692602304494]
本稿では,Twitterから得られた時系列データの大規模な収集について紹介する。
このデータは過去5年間に渡り、n-gramの頻度、類似性、感情、トピックの分布の変化を捉えている。
このデータの上に構築されたインタフェースは、時間的分析によって意味の変化を検出し、特徴付けることができる。
論文 参考訳(メタデータ) (2023-08-04T05:39:26Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - Towards Similarity-Aware Time-Series Classification [51.2400839966489]
時系列データマイニングの基本課題である時系列分類(TSC)について検討する。
グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化するフレームワークであるSimTSCを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:14:57Z) - Topic-time Heatmaps for Human-in-the-loop Topic Detection and Tracking [3.7057859167913456]
Topic Detection and Tracking (TDT)は、ニュースメディアのコレクションを、同じ現実世界のイベントに関連するストーリーのクラスタにまとめることを目的としている。
TDTモデルを検索エンジンや発見ツールなどの実用的な応用に適用するには、関心事のコーパスの"イベント"の範囲を絞り込む必要がある。
コーパス全体の視覚的概要を生成し、ユーザーは概要から興味のある領域を選択し、選択した文書が同じイベントに属することを確認(または拒否)するために一連の質問をすることができる。
論文 参考訳(メタデータ) (2021-10-12T19:17:56Z) - Time-Series Representation Learning via Temporal and Contextual
Contrasting [14.688033556422337]
時間・文脈コントラスト(TS-TCC)を用いた教師なし時系列表現学習フレームワークを提案する。
第一に、生の時系列データは、弱い、強い拡張を用いて、2つの異なる相関するビューに変換される。
第2に,厳密な横断的予測タスクを設計することにより,頑健な時間的表現を学習するための新しい時間的コントラストモジュールを提案する。
第三に、識別的表現をさらに学習するために、時間的コントラストモジュールからコンテキスト上に構築された文脈的コントラストモジュールを提案する。
論文 参考訳(メタデータ) (2021-06-26T23:56:31Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z) - Severing the Edge Between Before and After: Neural Architectures for
Temporal Ordering of Events [41.35277143634441]
本稿では,時間的関係を予測してイベントを順序付けするためのニューラルネットワークと一連のトレーニング手法を提案する。
このタスクにおける重要な課題は、アノテーション付きデータの不足であることを考えると、当社のモデルは事前訓練された表現や転送、マルチタスク学習のいずれかに依存しています。
英語文書のMATRESデータセットの実験は、このタスクに新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2020-04-08T23:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。