論文の概要: Towards Effective Time-Aware Language Representation: Exploring Enhanced Temporal Understanding in Language Models
- arxiv url: http://arxiv.org/abs/2406.01863v2
- Date: Wed, 05 Mar 2025 16:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 17:18:39.58595
- Title: Towards Effective Time-Aware Language Representation: Exploring Enhanced Temporal Understanding in Language Models
- Title(参考訳): 効果的な時間認識言語表現を目指して--言語モデルにおける時間的理解の強化を探る
- Authors: Jiexin Wang, Adam Jatowt, Yi Cai,
- Abstract要約: 本稿では,時間的ニュース記事の収集を前提として事前学習した,新しいタイムアウェア言語モデルであるBiTimeBERT 2.0を紹介する。
BiTimeBERT 2.0は3つの革新的な事前学習目標を通じて時間情報を組み込む。
BiTimeBERT 2.0は、幅広い時間的タスクにまたがって大幅に改善され、広範囲の時間的範囲にまたがるデータセットに優れることを示す。
- 参考スコア(独自算出の注目度): 24.784375155633427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the evolving field of Natural Language Processing (NLP), understanding the temporal context of text is increasingly critical for applications requiring advanced temporal reasoning. Traditional pre-trained language models like BERT, which rely on synchronic document collections such as BookCorpus and Wikipedia, often fall short in effectively capturing and leveraging temporal information. To address this limitation, we introduce BiTimeBERT 2.0, a novel time-aware language model pre-trained on a temporal news article collection. BiTimeBERT 2.0 incorporates temporal information through three innovative pre-training objectives: Extended Time-Aware Masked Language Modeling (ETAMLM), Document Dating (DD), and Time-Sensitive Entity Replacement (TSER). Each objective is specifically designed to target a distinct dimension of temporal information: ETAMLM enhances the model's understanding of temporal contexts and relations, DD integrates document timestamps as explicit chronological markers, and TSER focuses on the temporal dynamics of "Person" entities. Moreover, our refined corpus preprocessing strategy reduces training time by nearly 53\%, making BiTimeBERT 2.0 significantly more efficient while maintaining high performance. Experimental results show that BiTimeBERT 2.0 achieves substantial improvements across a broad range of time-related tasks and excels on datasets spanning extensive temporal ranges. These findings underscore BiTimeBERT 2.0's potential as a powerful tool for advancing temporal reasoning in NLP.
- Abstract(参考訳): 自然言語処理(NLP)の進化する分野では、高度な時間的推論を必要とするアプリケーションにおいて、テキストの時間的文脈を理解することがますます重要になっている。
BookCorpusやWikipediaのような同期文書コレクションに依存しているBERTのような従来の事前訓練された言語モデルは、時間情報の効果的取得と活用に不足することが多い。
この制限に対処するために、時間的ニュース記事コレクションに事前学習された新しいタイムアウェア言語モデルであるBiTimeBERT 2.0を紹介する。
BiTimeBERT 2.0は3つの革新的な事前学習目標を通じて時間情報を組み込む: 拡張時対応マスケッド言語モデリング(ETAMLM)、ドキュメントダイティング(DD)、時間知覚エンティティ置換(TSER)。
ETAMLMは時間的文脈と関係の理解を強化し、DDは文書のタイムスタンプを明示的な時間的マーカーとして統合し、TSERは「パーソン」エンティティの時間的ダイナミクスに焦点を当てる。
さらに, 改良したコーパス前処理方式によりトレーニング時間を約53倍に短縮し, BiTimeBERT 2.0の効率を向上し, 高い性能を維持した。
実験結果から,BiTimeBERT 2.0は幅広い時間的タスクにおいて大幅な改善を実現し,広範囲の時間的範囲にまたがるデータセットに優れることがわかった。
これらの知見は,NLPの時間的推論を促進する強力なツールとして,BiTimeBERT 2.0の可能性を裏付けるものである。
関連論文リスト
- TimesBERT: A BERT-Style Foundation Model for Time Series Understanding [72.64824086839631]
GPTスタイルのモデルは時系列予測の基礎モデルとして位置づけられている。
BERTスタイルのアーキテクチャは時系列理解のために完全にアンロックされていない。
時系列の汎用表現を学ぶために TimesBERT を設計する。
私たちのモデルは、さまざまなドメインにまたがる2600億のタイムポイントで事前トレーニングされています。
論文 参考訳(メタデータ) (2025-02-28T17:14:44Z) - TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents [52.13094810313054]
TimeCAPは、時系列データのコンテキスト化ツールとしてLarge Language Models(LLM)を創造的に利用する時系列処理フレームワークである。
TimeCAPには2つの独立したLCMエージェントが組み込まれており、1つは時系列のコンテキストをキャプチャするテキスト要約を生成し、もう1つはより情報のある予測を行うためにこのリッチな要約を使用する。
実世界のデータセットによる実験結果から,TimeCAPは時系列イベント予測の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T04:17:27Z) - Language-TPP: Integrating Temporal Point Processes with Language Models for Event Analysis [23.27520345839548]
テンポラルポイントプロセス(TPP)は、イベントシーケンスモデリングに広く用いられているが、リッチテキストのイベント記述を効果的に組み込むのに苦労することが多い。
本稿では,TPPをLLM(Large Language Models)と統合した統合フレームワークであるLanguage-TPPを紹介した。
論文 参考訳(メタデータ) (2025-02-11T00:09:45Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Time Machine GPT [15.661920010658626]
大規模言語モデル(LLM)は、広範かつ時間的に区別されないテキストコーパスでしばしば訓練される。
このアプローチは言語の性質の進化と一致していない。
本稿では,Time Machine GPT (TiMaGPT) と呼ばれる一連のポイントインタイムLCMを提案する。
論文 参考訳(メタデータ) (2024-04-29T09:34:25Z) - LITA: Language Instructed Temporal-Localization Assistant [71.68815100776278]
ビデオ長に対してタイムスタンプをエンコードするタイムトークンを導入し,ビデオ中のタイムスタンプをよりよく表現する。
また、アーキテクチャにSlowFastトークンを導入し、微細な時間分解能で時間情報をキャプチャする。
時間的ローカライゼーションに重点を置くことで,既存のビデオLLMに比べて映像ベースのテキスト生成が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-03-27T22:50:48Z) - TEI2GO: A Multilingual Approach for Fast Temporal Expression Identification [2.868883216530741]
TEI2GOモデルを導入し、HeidelTimeの有効性に匹敵するが、実行時間を大幅に改善した。
TEI2GOモデルをトレーニングするために,手動で注釈付けされた参照コーパスと,HeidelTimeに注釈付けされたニューステキストの包括的弱ラベル付きコーパスであるHeidelTime''を開発した。
コード、アノテーション、モデルは、コミュニティの探索と使用のために公開されています。
論文 参考訳(メタデータ) (2024-03-25T14:23:03Z) - Subspace Chronicles: How Linguistic Information Emerges, Shifts and
Interacts during Language Model Training [56.74440457571821]
我々は、構文、意味論、推論を含むタスクを、200万の事前学習ステップと5つのシードで分析する。
タスクや時間にまたがる重要な学習フェーズを特定し、その間にサブスペースが出現し、情報を共有し、後に専門化するために混乱する。
この結果は,モデル解釈可能性,マルチタスク学習,限られたデータからの学習に影響を及ぼす。
論文 参考訳(メタデータ) (2023-10-25T09:09:55Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Pre-trained Language Model with Prompts for Temporal Knowledge Graph
Completion [30.50032335014021]
我々は、新しいTKGCモデル、すなわち、TKGC(PPT)のための Prompts 付き事前学習言語モデルを提案する。
サンプルの四重項を事前訓練した言語モデル入力に変換し、タイムスタンプ間の間隔を異なるプロンプトに変換することで、暗黙的な意味情報を持つ一貫性のある文を生成する。
我々のモデルは、時間的知識グラフからの情報を言語モデルに効果的に組み込むことができる。
論文 参考訳(メタデータ) (2023-05-13T12:53:11Z) - HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training [49.52679453475878]
本稿では,モーメントとテキスト間の相互アライメントをモデル化するための時間対応ビデオ言語事前学習フレームワークHiTeAを提案する。
15の精確なビデオ言語理解と生成タスクに関する最先端の成果を得た。
論文 参考訳(メタデータ) (2022-12-30T04:27:01Z) - BiTimeBERT: Extending Pre-Trained Language Representations with
Bi-Temporal Information [41.683057041628125]
本稿では,ニュース記事の時間的収集に基づいて学習した新しい言語表現モデルであるBiTimeBERTを紹介する。
実験の結果、BiTimeBERTはBERTや他の既存の事前学習モデルより一貫して優れていた。
論文 参考訳(メタデータ) (2022-04-27T16:20:09Z) - Self-supervised Learning for Semi-supervised Temporal Language Grounding [84.11582376377471]
時間的言語接地(TLG)は、ビデオ中の特定の意味を含むセグメントの時間的境界をローカライズすることを目的としている。
以前の作業では、大量の手動アノテーションを必要とする完全に教師された設定や、満足のいくパフォーマンスを達成できない弱監督された設定で、このタスクに取り組みました。
アノテーションを限定して高い性能を達成するため,この課題を半教師付き方法で解決し,半教師付きテンポラル言語グラウンドディング(STLG)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-23T16:29:16Z) - STAGE: Tool for Automated Extraction of Semantic Time Cues to Enrich
Neural Temporal Ordering Models [4.6150532698347835]
我々は,時系列を自動的に抽出し,それらをニューラルモデルとの統合に適した表現に変換するシステムSTAGEを開発した。
2つのイベントオーダーデータセットで有望な結果を実証し、セマンティックキュー表現と将来の研究の統合における重要な問題を強調します。
論文 参考訳(メタデータ) (2021-05-15T23:34:02Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。