論文の概要: What Is The Political Content in LLMs' Pre- and Post-Training Data?
- arxiv url: http://arxiv.org/abs/2509.22367v1
- Date: Fri, 26 Sep 2025 14:00:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.481272
- Title: What Is The Political Content in LLMs' Pre- and Post-Training Data?
- Title(参考訳): LLMの事前・後データにおける政治内容とは?
- Authors: Tanise Ceron, Dmitry Nikolaev, Dominik Stammbach, Debora Nozza,
- Abstract要約: 完全オープンソースモデルであるOLMO2の事前学習コーパスと後学習コーパスの解析を行った。
これらのコーパスから、我々は大きなランダムサンプルを描き、政治的指向のために自動的に文書を注釈付けし、それらのソースドメインとコンテンツを分析する。
次に、トレーニングデータの政治的コンテンツが、特定の政策問題に対するモデルのスタンスとどのように関連しているかを評価する。
- 参考スコア(独自算出の注目度): 12.72257058961811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are known to generate politically biased text, yet how such biases arise remains unclear. A crucial step toward answering this question is the analysis of training data, whose political content remains largely underexplored in current LLM research. To address this gap, we present in this paper an analysis of the pre- and post-training corpora of OLMO2, the largest fully open-source model released together with its complete dataset. From these corpora, we draw large random samples, automatically annotate documents for political orientation, and analyze their source domains and content. We then assess how political content in the training data correlates with models' stance on specific policy issues. Our analysis shows that left-leaning documents predominate across datasets, with pre-training corpora containing significantly more politically engaged content than post-training data. We also find that left- and right-leaning documents frame similar topics through distinct values and sources of legitimacy. Finally, the predominant stance in the training data strongly correlates with models' political biases when evaluated on policy issues. These findings underscore the need to integrate political content analysis into future data curation pipelines as well as in-depth documentation of filtering strategies for transparency.
- Abstract(参考訳): 大規模言語モデル (LLM) は、政治的に偏見のあるテキストを生成することが知られているが、そのような偏見がどのように生じるかは定かではない。
この問題に対処するための重要なステップは、現在のLLM研究において、政治的内容がほとんど探索されていないトレーニングデータの分析である。
このギャップに対処するため,本論文では,OLMO2の事前学習コーパスと後学習コーパスの分析を行った。
これらのコーパスから、我々は大きなランダムサンプルを描き、政治的指向のために自動的に文書を注釈付けし、それらのソースドメインとコンテンツを分析する。
次に、トレーニングデータの政治的コンテンツが、特定の政策問題に対するモデルのスタンスとどのように関連しているかを評価する。
我々の分析によると、左利きの文書はデータセット間で優位であり、事前学習のコーパスには、ポストトレーニングデータよりもはるかに政治的に関与したコンテンツが含まれている。
また、左と右の文書は、異なる値と正当性に基づいて類似のトピックを定式化していることもわかりました。
最後に、トレーニングデータにおける主要なスタンスは、政策問題を評価する際のモデルの政治的偏見と強く相関する。
これらの調査結果は、今後のデータキュレーションパイプラインに政治コンテンツ分析を統合することの必要性と、透明性のためのフィルタリング戦略の詳細なドキュメントの必要性を浮き彫りにしている。
関連論文リスト
- Better Aligned with Survey Respondents or Training Data? Unveiling Political Leanings of LLMs on U.S. Supreme Court Cases [24.622980403581018]
本研究では,大規模言語モデルの政治的傾きが事前学習コーパスから記憶されたパターンを反映する程度について検討する。
ケーススタディとして、我々は、中絶や投票権などの論争的な話題に対処するため、米国最高裁判所32件のLLMの政治的傾向を調査することに焦点をあてる。
論文 参考訳(メタデータ) (2025-02-25T15:16:17Z) - The Impact of Persona-based Political Perspectives on Hateful Content Detection [4.04666623219944]
政治的に多様な言語モデルは、多くの研究者や組織にアクセスできない計算資源を必要とする。
近年の研究では、ペルソナをベースとしたプロンプトが、追加の訓練なしに、モデルアウトプットに政治的多様性をもたらすことが確認されている。
本稿では、下流業務における政治的事前訓練に匹敵する結果が得られるかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-01T09:53:17Z) - Political-LLM: Large Language Models in Political Science [159.95299889946637]
大規模言語モデル(LLM)は、政治科学のタスクで広く採用されている。
政治LLMは、LLMを計算政治科学に統合する包括的な理解を促進することを目的としている。
論文 参考訳(メタデータ) (2024-12-09T08:47:50Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Retrieval Enhanced Data Augmentation for Question Answering on Privacy
Policies [74.01792675564218]
本研究では,ラベルのないポリシー文書から関連するテキストセグメントを抽出する検索モデルに基づくデータ拡張フレームワークを開発する。
拡張データの多様性と品質を改善するために,複数の事前学習言語モデル(LM)を活用し,ノイズ低減フィルタモデルでそれらをカスケードする。
PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10% F1)に高め、新しい最先端のF1スコアを50%達成します。
論文 参考訳(メタデータ) (2022-04-19T15:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。