論文の概要: CHRONOBERG: Capturing Language Evolution and Temporal Awareness in Foundation Models
- arxiv url: http://arxiv.org/abs/2509.22360v1
- Date: Fri, 26 Sep 2025 13:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.473194
- Title: CHRONOBERG: Capturing Language Evolution and Temporal Awareness in Foundation Models
- Title(参考訳): CHRONOBERG:基礎モデルにおける言語進化と時間認識
- Authors: Niharika Hegde, Subarnaduti Paul, Lars Joel-Frey, Manuel Brack, Kristian Kersting, Martin Mundt, Patrick Schramowski,
- Abstract要約: 本稿では,250年にわたる英語本文の時間的構造化コーパスであるCHRONOBERGを紹介する。
言語モデルをCHRONOBERGで逐次訓練し,ダイアクロニックシフトをエンコードする方法を示す。
- 参考スコア(独自算出の注目度): 39.24332311788704
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) excel at operating at scale by leveraging social media and various data crawled from the web. Whereas existing corpora are diverse, their frequent lack of long-term temporal structure may however limit an LLM's ability to contextualize semantic and normative evolution of language and to capture diachronic variation. To support analysis and training for the latter, we introduce CHRONOBERG, a temporally structured corpus of English book texts spanning 250 years, curated from Project Gutenberg and enriched with a variety of temporal annotations. First, the edited nature of books enables us to quantify lexical semantic change through time-sensitive Valence-Arousal-Dominance (VAD) analysis and to construct historically calibrated affective lexicons to support temporally grounded interpretation. With the lexicons at hand, we demonstrate a need for modern LLM-based tools to better situate their detection of discriminatory language and contextualization of sentiment across various time-periods. In fact, we show how language models trained sequentially on CHRONOBERG struggle to encode diachronic shifts in meaning, emphasizing the need for temporally aware training and evaluation pipelines, and positioning CHRONOBERG as a scalable resource for the study of linguistic change and temporal generalization. Disclaimer: This paper includes language and display of samples that could be offensive to readers. Open Access: Chronoberg is available publicly on HuggingFace at ( https://huggingface.co/datasets/spaul25/Chronoberg). Code is available at (https://github.com/paulsubarna/Chronoberg).
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソーシャルメディアとWebからクロールされたさまざまなデータを活用することで、大規模に運用する上で優れている。
既存のコーパスは多様であるが、長期的な時間構造が欠如していることは、LLMが言語の意味的・規範的進化を文脈化し、ダイアクロニックな変化を捉える能力を制限している可能性がある。
後者の分析と訓練を支援するために,250年にわたる英文テキストの時間的構造化コーパスであるCHRONOBERGを紹介した。
まず,本書の編集により,時間に敏感なValence-Arousal-Dominance(VAD)分析による語彙意味変化の定量化と,時間的基盤の解釈を支援するために歴史的に校正された情緒的語彙の構築が可能となる。
辞書を手元に置くことで、差別的言語の検出と、様々な期間にわたる感情の文脈化をより正確にするための、現代のLLMベースのツールの必要性が示される。
実際に,CHRONOBERGを逐次訓練した言語モデルが,時間的に意識したトレーニングと評価パイプラインの必要性を強調し,時間的変化と時間的一般化を研究するためのスケーラブルなリソースとしてCHRONOBERGを位置づけることによって,ダイアクロニックシフトの符号化に苦慮していることを示す。
Disclaimer: この論文には、読者に不快なサンプルの言語と表示が含まれています。
オープンアクセス: ChronobergはHuggingFace at (https://huggingface.co/datasets/spaul25/Chronoberg)で公開されている。
コードはhttps://github.com/paulsubarna/Chronobergで入手できる。
関連論文リスト
- From Values to Tokens: An LLM-Driven Framework for Context-aware Time Series Forecasting via Symbolic Discretization [21.8427780153806]
時系列予測は、エネルギー、医療、金融など、幅広い重要な応用において意思決定を支援する上で重要な役割を担っている。
我々は,言語に基づく記号表現を文脈対応時系列予測のための統合仲介手段として活用する,LLM駆動のフレームワークであるTokenCastを提案する。
具体的には、TokenCastは離散トークン化器を使用して、連続する数値列を時間トークンに変換し、言語ベースの入力と構造的アライメントを可能にする。
論文 参考訳(メタデータ) (2025-08-08T03:51:08Z) - Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating
Generalization Capacity of Language Models [18.874880342410876]
本稿では、時間的推測に焦点を当てた日本のベンチマークであるJampを紹介する。
我々のデータセットには時間的推論パターンが含まれており、きめ細かい分析を行うことができます。
時制フラグメントに基づいてデータセットを分割することにより,単言語/多言語LMの一般化能力を評価する。
論文 参考訳(メタデータ) (2023-06-19T07:00:14Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Learning language variations in news corpora through differential
embeddings [0.0]
中心的な単語表現とスライスに依存したコントリビューションを持つモデルでは,異なるコーパスから単語埋め込みを同時に学習できることを示す。
各コーパスの年次スライスにおける時間的ダイナミクスと、米国英語と英国英語の言語変化をキュレートしたマルチソースコーパスで捉えることができることを示す。
論文 参考訳(メタデータ) (2020-11-13T14:50:08Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Exploring Contextualized Neural Language Models for Temporal Dependency
Parsing [10.17066263304299]
BERTは時間依存性解析を大幅に改善することを示す。
また、深く文脈化されたニューラルLMがなぜ役に立ち、どこで不足するかを詳細に分析する。
論文 参考訳(メタデータ) (2020-04-30T03:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。