論文の概要: What Is The Political Content in LLMs' Pre- and Post-Training Data?
- arxiv url: http://arxiv.org/abs/2509.22367v1
- Date: Fri, 26 Sep 2025 14:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.481272
- Title: What Is The Political Content in LLMs' Pre- and Post-Training Data?
- Title(参考訳): LLMの事前・後データにおける政治内容とは?
- Authors: Tanise Ceron, Dmitry Nikolaev, Dominik Stammbach, Debora Nozza,
- Abstract要約: 完全オープンソースモデルであるOLMO2の事前学習コーパスと後学習コーパスの解析を行った。
これらのコーパスから、我々は大きなランダムサンプルを描き、政治的指向のために自動的に文書を注釈付けし、それらのソースドメインとコンテンツを分析する。
次に、トレーニングデータの政治的コンテンツが、特定の政策問題に対するモデルのスタンスとどのように関連しているかを評価する。
- 参考スコア(独自算出の注目度): 12.72257058961811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are known to generate politically biased text, yet how such biases arise remains unclear. A crucial step toward answering this question is the analysis of training data, whose political content remains largely underexplored in current LLM research. To address this gap, we present in this paper an analysis of the pre- and post-training corpora of OLMO2, the largest fully open-source model released together with its complete dataset. From these corpora, we draw large random samples, automatically annotate documents for political orientation, and analyze their source domains and content. We then assess how political content in the training data correlates with models' stance on specific policy issues. Our analysis shows that left-leaning documents predominate across datasets, with pre-training corpora containing significantly more politically engaged content than post-training data. We also find that left- and right-leaning documents frame similar topics through distinct values and sources of legitimacy. Finally, the predominant stance in the training data strongly correlates with models' political biases when evaluated on policy issues. These findings underscore the need to integrate political content analysis into future data curation pipelines as well as in-depth documentation of filtering strategies for transparency.
- Abstract(参考訳): 大規模言語モデル (LLM) は、政治的に偏見のあるテキストを生成することが知られているが、そのような偏見がどのように生じるかは定かではない。
この問題に対処するための重要なステップは、現在のLLM研究において、政治的内容がほとんど探索されていないトレーニングデータの分析である。
このギャップに対処するため,本論文では,OLMO2の事前学習コーパスと後学習コーパスの分析を行った。
これらのコーパスから、我々は大きなランダムサンプルを描き、政治的指向のために自動的に文書を注釈付けし、それらのソースドメインとコンテンツを分析する。
次に、トレーニングデータの政治的コンテンツが、特定の政策問題に対するモデルのスタンスとどのように関連しているかを評価する。
我々の分析によると、左利きの文書はデータセット間で優位であり、事前学習のコーパスには、ポストトレーニングデータよりもはるかに政治的に関与したコンテンツが含まれている。
また、左と右の文書は、異なる値と正当性に基づいて類似のトピックを定式化していることもわかりました。
最後に、トレーニングデータにおける主要なスタンスは、政策問題を評価する際のモデルの政治的偏見と強く相関する。
これらの調査結果は、今後のデータキュレーションパイプラインに政治コンテンツ分析を統合することの必要性と、透明性のためのフィルタリング戦略の詳細なドキュメントの必要性を浮き彫りにしている。
関連論文リスト
- Exploiting contextual information to improve stance detection in informal political discourse with LLMs [0.0]
本研究では,大規模言語モデル(LLM)を用いた非公式オンライン談話における政治的姿勢検出について検討した。
実世界の政治フォーラムデータセットを用いて、ユーザのイデオロギー的傾向、繰り返しトピック、言語パターンを要約した構造化プロファイルを生成する。
文脈的プロンプトは、+17.5%から+38.5%に改善され、従来のアプローチを超越した74%の精度を実現している。
論文 参考訳(メタデータ) (2026-02-04T16:49:26Z) - Analyzing Political Text at Scale with Online Tensor LDA [53.16930342547758]
本稿では,数十億の文書に線形にスケールするトピックモデリング手法を提案する。
本手法は, 並列化遅延ディリクレ割当法(LDA法)の3,4倍の高速化を実現するため, 計算処理とメモリ効率がよいことを示す。
我々は、政治科学者に2つの実世界、大規模な新しい研究を行ないました。
論文 参考訳(メタデータ) (2025-11-11T03:58:48Z) - Better Aligned with Survey Respondents or Training Data? Unveiling Political Leanings of LLMs on U.S. Supreme Court Cases [24.622980403581018]
本研究では,大規模言語モデルの政治的傾きが事前学習コーパスから記憶されたパターンを反映する程度について検討する。
ケーススタディとして、我々は、中絶や投票権などの論争的な話題に対処するため、米国最高裁判所32件のLLMの政治的傾向を調査することに焦点をあてる。
論文 参考訳(メタデータ) (2025-02-25T15:16:17Z) - The Impact of Persona-based Political Perspectives on Hateful Content Detection [4.04666623219944]
政治的に多様な言語モデルは、多くの研究者や組織にアクセスできない計算資源を必要とする。
近年の研究では、ペルソナをベースとしたプロンプトが、追加の訓練なしに、モデルアウトプットに政治的多様性をもたらすことが確認されている。
本稿では、下流業務における政治的事前訓練に匹敵する結果が得られるかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-01T09:53:17Z) - Political-LLM: Large Language Models in Political Science [159.95299889946637]
大規模言語モデル(LLM)は、政治科学のタスクで広く採用されている。
政治LLMは、LLMを計算政治科学に統合する包括的な理解を促進することを目的としている。
論文 参考訳(メタデータ) (2024-12-09T08:47:50Z) - Balancing Transparency and Accuracy: A Comparative Analysis of Rule-Based and Deep Learning Models in Political Bias Classification [5.550237524713089]
この研究は、制約のないデータ摂取に対する現代の自己学習システムの感受性を強調している。
両モデルを左利き(CNN)と右利き(FOX)のニュース記事に適用し、元のトレーニングやテストセットを超えたデータ上での有効性を評価する。
深層学習モデルの不透明なアーキテクチャと言語情報に基づくルールベースモデルの透明性を対比する。
論文 参考訳(メタデータ) (2024-11-07T00:09:18Z) - Language Models Learn Metadata: Political Stance Detection Case Study [1.2277343096128712]
本稿では,メタデータを政治的スタンス検出タスクに組み込むための最適な方法について検討する。
我々の単純なベースラインは、党員情報のみを用いて、現在の最先端を超越していることが示される。
論文 参考訳(メタデータ) (2024-09-15T14:57:41Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z) - PolicyQA: A Reading Comprehension Dataset for Privacy Policies [77.79102359580702]
既存のWebサイトプライバシポリシ115のコーパスから算出した,25,017の理解スタイルの例を含むデータセットであるPolicyQAを提案する。
既存の2つのニューラルQAモデルを評価し、厳密な分析を行い、ポリシQAが提供する利点と課題を明らかにする。
論文 参考訳(メタデータ) (2020-10-06T09:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。