論文の概要: ETimeline: An Extensive Timeline Generation Dataset based on Large Language Model
- arxiv url: http://arxiv.org/abs/2502.07474v1
- Date: Tue, 11 Feb 2025 11:34:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:05:41.840237
- Title: ETimeline: An Extensive Timeline Generation Dataset based on Large Language Model
- Title(参考訳): ETimeline: 大規模言語モデルに基づく拡張タイムライン生成データセット
- Authors: Xiaochen Liu, Yanan Zhang,
- Abstract要約: ETimelineは1万3000ドル以上のニュース記事を含み、228ドルのニュースドメインに600ドルのバイリンガルドメインがある。
この研究は、時系列生成の研究に貢献し、生成やイベントの関係を含む幅広いタスクをサポートする。
- 参考スコア(独自算出の注目度): 4.639419073825561
- License:
- Abstract: Timeline generation is of great significance for a comprehensive understanding of the development of events over time. Its goal is to organize news chronologically, which helps to identify patterns and trends that may be obscured when viewing news in isolation, making it easier to track the development of stories and understand the interrelationships between key events. Timelines are now common in various commercial products, but academic research in this area is notably scarce. Additionally, the current datasets are in need of refinement for enhanced utility and expanded coverage. In this paper, we propose ETimeline, which encompasses over $13,000$ news articles, spanning $600$ bilingual timelines across $28$ news domains. Specifically, we gather a candidate pool of more than $120,000$ news articles and employ the large language model (LLM) Pipeline to improve performance, ultimately yielding the ETimeline. The data analysis underscores the appeal of ETimeline. Additionally, we also provide the news pool data for further research and analysis. This work contributes to the advancement of timeline generation research and supports a wide range of tasks, including topic generation and event relationships. We believe that this dataset will serve as a catalyst for innovative research and bridge the gap between academia and industry in understanding the practical application of technology services. The dataset is available at https://zenodo.org/records/11392212
- Abstract(参考訳): タイムライン生成は、時間とともに発生する出来事を包括的に理解する上で非常に重要である。
そのゴールは、ニュースを独立して見るときに隠蔽される可能性のあるパターンや傾向を識別し、ストーリーの開発を追跡し、主要なイベント間の相互関係を理解するのに役立つ。
現在、様々な商業製品でタイムラインが一般的になっているが、この分野の学術研究は特に少ない。
さらに、現在のデータセットは、強化されたユーティリティと拡張されたカバレッジのために洗練する必要がある。
本稿では,13,000ドル以上のニュース記事を含むETimelineを提案する。
具体的には、12000ドル以上のニュース記事の候補プールを集め、大規模言語モデル(LLM)パイプラインを使用してパフォーマンスを改善し、最終的にETimelineを出力します。
データ分析は、ETimelineの魅力を強調している。
さらに、さらに研究と分析を行うために、ニュースプールのデータも提供します。
この研究は、時系列生成研究の進展に寄与し、トピック生成やイベントの関係など、幅広いタスクをサポートする。
このデータセットは、革新的な研究の触媒となり、テクノロジーサービスの実践的応用を理解するために、学術と産業のギャップを埋めるものだと考えています。
データセットはhttps://zenodo.org/records/11392212で公開されている。
関連論文リスト
- Unfolding the Headline: Iterative Self-Questioning for News Retrieval and Timeline Summarization [93.56166917491487]
本稿では,オープンドメインニュースタイムライン SummarizatiOn に対するCHRONOS-Causal Headline Retrieval を提案する。
実験の結果,Chronosはオープンドメインのタイムラインの要約に長けているだけでなく,クローズドドメインアプリケーション用に設計された既存の最先端システムの性能に匹敵していることがわかった。
論文 参考訳(メタデータ) (2025-01-01T16:28:21Z) - Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding [57.62275091656578]
時間的複合イベント(TCE)として、長い期間にわたって多くのニュース記事から構成される複合イベントについて述べる。
本稿では,Large Language Models (LLMs) を用いて,TCE内のイベントチェーンを系統的に抽出し,解析する手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T16:42:17Z) - A diverse Multilingual News Headlines Dataset from around the World [57.37355895609648]
Babel Briefingsは、2020年8月から2021年11月までの470万のニュースの見出しを、世界中の30の言語と54の場所にわたって掲載した、新しいデータセットである。
言語モデルのトレーニングや評価のための高品質なデータセットとして機能し、単純でアクセスしやすい記事のコレクションを提供する。
論文 参考訳(メタデータ) (2024-03-28T12:08:39Z) - SciNews: From Scholarly Complexities to Public Narratives -- A Dataset for Scientific News Report Generation [16.61347730523143]
我々は、科学ニュースの自動生成を容易にするための新しいコーパスを提示する。
本データセットは,9分野にわたる学術出版物と,それに対応する科学報告から構成される。
我々は、最先端のテキスト生成モデルを用いてデータセットをベンチマークする。
論文 参考訳(メタデータ) (2024-03-26T14:54:48Z) - Once Upon a $\textit{Time}$ in $\textit{Graph}$: Relative-Time
Pretraining for Complex Temporal Reasoning [96.03608822291136]
我々は時間の性質を生かし、時間軸に沿った事象の相対的な配置に基づくグラフ構造の構築を提案する。
グラフビューにインスパイアされたRemeMoを提案する。これは2つの文間の時間関係をモデル化することによって、時間的に観察されたすべての事実を明示的に接続する。
実験の結果、RemeMoは複数の時間的質問応答データセット上でベースラインT5よりも優れていた。
論文 参考訳(メタデータ) (2023-10-23T08:49:00Z) - Large Models for Time Series and Spatio-Temporal Data: A Survey and
Outlook [95.32949323258251]
時系列データ、特に時系列データと時間時間データは、現実世界のアプリケーションで広く使われている。
大規模言語やその他の基礎モデルの最近の進歩は、時系列データマイニングや時間データマイニングでの使用の増加に拍車を掛けている。
論文 参考訳(メタデータ) (2023-10-16T09:06:00Z) - Video Timeline Modeling For News Story Understanding [123.03394373132353]
我々は,ビデオタイムラインモデリングという新たな問題を提示した。
我々の目的は、特定の話題に関連する一連のビデオからビデオ関連タイムラインを作成し、話されているストーリーの内容や構造を理解しやすくすることである。
この問題は、例えばニュースストーリーの要約など、様々な現実世界のアプリケーションにおいて大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-09-23T18:24:15Z) - VLSNR:Vision-Linguistics Coordination Time Sequence-aware News
Recommendation [0.0]
マルチモーダルセマンティクスは、ユーザの時間的および長期的関心の理解を高めるのに有用である。
本研究では,視覚言語による時系列ニュースレコメンデーションを提案する。
また,大規模なマルチモーダルニュースレコメンデーションデータセットV-MINDを構築した。
論文 参考訳(メタデータ) (2022-10-06T14:27:37Z) - Deep learning for time series classification [2.0305676256390934]
時系列分析により、時間の経過とともにプロセスの進化を可視化し、理解することができます。
時系列分類は時系列データを自動的にラベル付けするアルゴリズムで構成されている。
ディープラーニングは、教師付き分類タスクに対処する最も効果的な方法の1つとして登場した。
論文 参考訳(メタデータ) (2020-10-01T17:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。