論文の概要: From Outliers to Topics in Language Models: Anticipating Trends in News Corpora
- arxiv url: http://arxiv.org/abs/2509.22030v1
- Date: Fri, 26 Sep 2025 08:07:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.289469
- Title: From Outliers to Topics in Language Models: Anticipating Trends in News Corpora
- Title(参考訳): 言語モデルにおけるアウトリーチからトピックへ:ニュースコーパスの動向を予想して
- Authors: Evangelia Zve, Benjamin Icard, Alice Breton, Lila Sainero, Gauvain Bourgne, Jean-Gabriel Ganascia,
- Abstract要約: 本稿では,話題モデリングにおけるノイズとしてしばしば無視される外れ値が,動的ニュースコーパスにおいて出現する話題の弱い信号として機能するかを検討する。
企業における社会的責任と気候変動に焦点をあてた、フランス語と英語のニュースデータセットで、彼らの進化を時間とともに追跡します。
アウトリーチは、モデルと言語の両方にわたって、時間とともに一貫性のあるトピックへと進化する傾向にあります。
- 参考スコア(独自算出の注目度): 0.6841536467264131
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper examines how outliers, often dismissed as noise in topic modeling, can act as weak signals of emerging topics in dynamic news corpora. Using vector embeddings from state-of-the-art language models and a cumulative clustering approach, we track their evolution over time in French and English news datasets focused on corporate social responsibility and climate change. The results reveal a consistent pattern: outliers tend to evolve into coherent topics over time across both models and languages.
- Abstract(参考訳): 本稿では,話題モデリングにおけるノイズとしてしばしば無視される外れ値が,動的ニュースコーパスにおいて出現する話題の弱い信号として機能するかを検討する。
最先端の言語モデルからのベクトル埋め込みと累積的クラスタリングアプローチを用いて、企業における社会的責任と気候変動に焦点を当てたフランス語と英語のニュースデータセットにおいて、彼らの進化を経時的に追跡する。
アウトリーチは、モデルと言語の両方にわたって、時間とともに一貫性のあるトピックへと進化する傾向にあります。
関連論文リスト
- Linguistically Grounded Analysis of Language Models using Shapley Head Values [2.914115079173979]
最近提案されたシェープヘッド値(SHV)を用いた言語モデル探索手法を利用した形態素合成現象の処理について検討する。
英語のBLiMPデータセットを用いて、BERTとRoBERTaという2つの広く使われているモデルに対して、我々のアプローチを検証し、言語構造がどのように扱われるかを比較する。
以上の結果から,SHVに基づく属性は両モデルにまたがる異なるパターンを明らかにし,言語モデルがどのように言語情報を整理・処理するかの洞察を与える。
論文 参考訳(メタデータ) (2024-10-17T09:48:08Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text [29.586404361715054]
本研究では,前任者が生成した合成データに対する学習言語モデルの影響について検討した。
その結果,連続反復によるモデル出力の多様性の連続的な低下が明らかとなった。
本研究は,言語モデルの言語能力に対する訓練手法の長期的影響を慎重に検討することの必要性を強調した。
論文 参考訳(メタデータ) (2023-11-16T11:31:50Z) - Evolution of grammatical forms: some quantitative approaches [0.0]
文法形式は2つの主要なメカニズムによって進化すると言われている。
これらは降下機構と接触機構である。
我々は統計物理学のアイデアと概念を使って、一連の静的および動的モデルの定式化を行っている。
論文 参考訳(メタデータ) (2023-02-06T09:50:48Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Language Model Evaluation Beyond Perplexity [47.268323020210175]
我々は、言語モデルから生成されたテキストが、訓練された人為的なテキストに存在する統計的傾向を示すかどうかを分析する。
ニューラルネットワークモデルは、考慮された傾向のサブセットのみを学習しているように見えるが、提案された理論分布よりも経験的傾向とより密接に一致している。
論文 参考訳(メタデータ) (2021-05-31T20:13:44Z) - Pitfalls of Static Language Modelling [41.76918612574081]
現状のトランスフォーマーモデルは、訓練期間を超えて、将来の発話を予測する現実的なセットアップにおいて、さらに悪化することを示す。
私たちは、静的言語モデリング評価プロトコルを再考するのは、今が正しい時だと論じています。
論文 参考訳(メタデータ) (2021-02-03T09:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。