論文の概要: Approaches to Analysing Historical Newspapers Using LLMs
- arxiv url: http://arxiv.org/abs/2603.25051v1
- Date: Thu, 26 Mar 2026 05:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.121415
- Title: Approaches to Analysing Historical Newspapers Using LLMs
- Title(参考訳): LLMを用いた歴史新聞の分析へのアプローチ
- Authors: Filip Dobranić, Tina Munda, Oliver Pejić, Vojko Gorjanc, Uroš Šmajdek, David Bordon, Jakob Lenardič, Tjaša Konovšek, Kristina Pahor de Maiti Tekavčič, Ciril Bohak, Darja Fišer,
- Abstract要約: 本研究では,スロヴェニアの歴史新聞『Slovenec』と『Slovenski narod from the sPeriodika corpus』の計算分析を行った。
20世紀の変わり目に、集団的アイデンティティ、政治的指向、そして国民的所有物がどのように公共の場で表現されたかを検討する。
- 参考スコア(独自算出の注目度): 1.0225484904475783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a computational analysis of the Slovene historical newspapers \textit{Slovenec} and \textit{Slovenski narod} from the sPeriodika corpus, combining topic modelling, large language model (LLM)-based aspect-level sentiment analysis, entity-graph visualisation, and qualitative discourse analysis to examine how collective identities, political orientations, and national belonging were represented in public discourse at the turn of the twentieth century. Using BERTopic, we identify major thematic patterns and show both shared concerns and clear ideological differences between the two newspapers, reflecting their conservative-Catholic and liberal-progressive orientations. We further evaluate four instruction-following LLMs for targeted sentiment classification in OCR-degraded historical Slovene and select the Slovene-adapted GaMS3-12B-Instruct model as the most suitable for large-scale application, while also documenting important limitations, particularly its stronger performance on neutral sentiment than on positive or negative sentiment. Applied at dataset scale, the model reveals meaningful variation in the portrayal of collective identities, with some groups appearing predominantly in neutral descriptive contexts and others more often in evaluative or conflict-related discourse. We then create NER graphs to explore the relationships between collective identities and places. We apply a mixed methods approach to analyse the named entity graphs, combining quantitative network analysis with critical discourse analysis. The investigation focuses on the emergence and development of intertwined historical political and socionomic identities. Overall, the study demonstrates the value of combining scalable computational methods with critical interpretation to support digital humanities research on noisy historical newspaper data.
- Abstract(参考訳): 本研究では,スロヴェニアの歴史新聞『Slovenec』と『Slovenski narod}』をsPeriodika corpusから分析し,トピックモデリング,大規模言語モデル(LLM)に基づくアスペクトレベルの感情分析,エンティティグラフの可視化,質的談話分析を組み合わせて,20世紀の変わり目に集団的アイデンティティ,政治的指向,国民的所有物がどのように公衆の言論で表現されたかを検討した。
BERTopicを用いて、主要なテーマパターンを特定し、両新聞間の共通関心と明確なイデオロギー的差異の両方を示し、保守・カトリック・リベラル・プログレッシブ指向を反映している。
さらに,OCRによる歴史的スロベニアにおける目標感情分類のための4つの指導追従LCMを評価し,大規模な応用に最も適するものとして,スロベニア適応GaMS3-12B-インストラクトモデルを選定した。
データセットのスケールで応用すると、このモデルは集団的アイデンティティの描写において有意義な変化を示し、中性的な記述的文脈において主に現れるグループや、評価的あるいは矛盾に関連した会話においてより頻繁に現れるグループがある。
次に、NERグラフを作成し、集合的アイデンティティと場所の関係を探索する。
本稿では、定量的ネットワーク分析と批判的談話分析を組み合わせた、名前付きエンティティグラフの分析に混合手法を適用する。
この調査は、対立する歴史的政治的・社会学的アイデンティティの出現と発展に焦点を当てている。
本研究は,デジタル人文科学研究を支援するために,スケーラブルな計算手法と批判的解釈を組み合わせることの価値を実証する。
関連論文リスト
- Triangulating Temporal Dynamics in Multilingual Swiss Online News [0.0]
本稿では,スイスの3つの主要言語地域(フランス語,ドイツ語,イタリア語)におけるデジタルメディアの時間的傾向について考察する。
我々は170万以上のニュース記事を収集し処理し、語彙メトリクス、名前付きエンティティ認識、Wikidataベースのリンク、ターゲットの感情分析、コンセンサスベースの変化点検出を適用した。
この発見は、時間的パターンを明確にし、言語的・文化的文脈が報告にどのような影響を及ぼすかを強調した。
論文 参考訳(メタデータ) (2026-03-23T03:27:00Z) - Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive Benchmark Study [1.6682715542079583]
汎用AIモデルのトレーニングに使用される大規模なウェブスクレイプテキストコーパスは、しばしば有害な人口統計学的対象の社会的バイアスを含んでいる。
本稿では、人口統計学的対象の社会的偏見を検出するためのLCMの能力を評価するための、英語テキストを対象とした総合的な評価フレームワークを提案する。
次に,学習の促進,文脈内学習,微調整など,スケールとテクニックをまたいだモデルを用いて,体系的な評価を行う。
論文 参考訳(メタデータ) (2025-10-06T09:45:32Z) - Interpreting Social Bias in LVLMs via Information Flow Analysis and Multi-Round Dialogue Evaluation [1.7997395646080083]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な進歩を遂げているが、社会的偏見も顕著である。
本稿では,情報フロー解析と多ラウンド対話評価を組み合わせた説明フレームワークを提案する。
実験により、LVLMは異なる人口集団の画像を処理する際に、情報利用の体系的な差異を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T12:28:44Z) - AgoraSpeech: A multi-annotated comprehensive dataset of political discourse through the lens of humans and AI [1.3060410279656598]
アゴラ・スペーチ(AgoraSpeech)は、ギリシャ国民選挙中の2023年の6つの政党による171の政治演説を精巧にキュレートした高品質なデータセットである。
このデータセットには、テキスト分類、トピック識別、感情分析、名前付きエンティティ認識、分極、ポピュリズム検出の6つの自然言語処理(NLP)タスクのためのアノテーション(1段落)が含まれている。
論文 参考訳(メタデータ) (2025-01-09T18:17:59Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Fairness meets Cross-Domain Learning: a new perspective on Models and
Metrics [80.07271410743806]
クロスドメイン学習(CD)とモデルフェアネスの関係について検討する。
いくつかの人口集団にまたがる顔画像と医療画像のベンチマークと、分類とローカライゼーションタスクについて紹介する。
本研究は,3つの最先端フェアネスアルゴリズムとともに,14のCDアプローチをカバーし,前者が後者に勝ることを示す。
論文 参考訳(メタデータ) (2023-03-25T09:34:05Z) - O-Dang! The Ontology of Dangerous Speech Messages [53.15616413153125]
O-Dang!:The Ontology of Dangerous Speech Messages, a systematic and interoperable Knowledge Graph (KG)
O-Dang!は、Lingguistic Linked Open Dataコミュニティで共有されている原則に従って、イタリアのデータセットを構造化されたKGにまとめ、整理するように設計されている。
ゴールド・スタンダードとシングル・アノテータのラベルをKGにエンコードするモデルを提供する。
論文 参考訳(メタデータ) (2022-07-13T11:50:05Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。