論文の概要: Understanding and Mitigating Political Stance Cross-topic Generalization in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.02360v1
- Date: Mon, 04 Aug 2025 12:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.334015
- Title: Understanding and Mitigating Political Stance Cross-topic Generalization in Large Language Models
- Title(参考訳): 大規模言語モデルにおける政治スタンス横断的一般化の理解と緩和
- Authors: Jiayi Zhang, Shu Yang, Junchao Wu, Derek F. Wong, Di Wang,
- Abstract要約: 政治的トピックに関する微調整された大規模言語モデルは、様々な問題に対する政治的スタンスを著しく制御し、無関係なトピックに対する彼らのスタンスに意図せずに影響を及ぼす。
本稿では、ニューロンレベルで、この現象の根底にある内部メカニズムを体系的に研究する。
InhibitFTは阻害に基づく微調整手法で、横断的姿勢一般化を効果的に緩和する。
- 参考スコア(独自算出の注目度): 37.43105075004264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning Large Language Models on a political topic will significantly manipulate their political stance on various issues and unintentionally affect their stance on unrelated topics. While previous studies have proposed this issue, there is still a lack of understanding regarding the internal representations of these stances and the mechanisms that lead to unintended cross-topic generalization. In this paper, we systematically explore the internal mechanisms underlying this phenomenon from a neuron-level perspective and how to mitigate the cross-topic generalization of political fine-tuning. Firstly, we propose Political Neuron Localization through Activation Contrasting (PNLAC) to identify two distinct types of political neurons: general political neurons, which govern stance across multiple political topics, and topic-specific neurons} that affect the model's political stance on individual topics. We find the existence of these political neuron types across four models and datasets through activation patching experiments. Leveraging these insights, we introduce InhibitFT, an inhibition-based fine-tuning method, effectively mitigating the cross-topic stance generalization. Experimental results demonstrate the robustness of identified neuron types across various models and datasets, and show that InhibitFT significantly reduces the cross-topic stance generalization by 20% on average, while preserving topic-specific performance. Moreover, we demonstrate that selectively inhibiting only 5% of neurons is sufficient to effectively mitigate the cross-topic stance generalization.
- Abstract(参考訳): 政治的トピックに関する微調整された大規模言語モデルは、様々な問題に対する政治的スタンスを著しく制御し、無関係なトピックに対する彼らのスタンスに意図せずに影響を及ぼす。
これまでの研究ではこの問題が提案されているが、これらのスタンスの内部表現と意図しない横断的一般化につながるメカニズムについてはまだ理解されていない。
本稿では,この現象の根底にある内部メカニズムをニューロンレベルで体系的に検討し,政治的微調整の横断的一般化をいかに緩和するかを考察する。
まず、活性化コントラスト(PNLAC)による政治ニューロンの局在化を提案し、複数の政治トピックにまたがるスタンスを支配する一般的な政治ニューロンと、個々のトピックに対するモデルの政治的スタンスに影響を与えるトピック特異的ニューロンの2つの異なるタイプの政治ニューロンを同定する。
4つのモデルとデータセットにまたがるこれらの政治的ニューロンタイプの存在は、アクティベーションパッチ実験によって明らかとなる。
これらの知見を生かして、阻害に基づく微調整手法であるInhibitFTを導入し、横断的姿勢一般化を効果的に緩和する。
実験の結果,様々なモデルやデータセットにまたがる同定されたニューロン型の堅牢性を示すとともに,InhibitFTはトピック固有のパフォーマンスを維持しつつ,平均で20パーセントの横断的姿勢の一般化を著しく減少させることを示した。
さらに, 神経細胞の5%のみを選択的に抑制することは, 交叉交叉姿勢の一般化を効果的に緩和するのに十分であることを示す。
関連論文リスト
- Unveiling Political Influence Through Social Media: Network and Causal Dynamics in the 2022 French Presidential Election [0.0]
2022年のフランス大統領選挙では、政治候補者とその近しいネットワークが投稿した重要なトピックについて、毎日のTwitterメッセージを収集しました。
データ駆動型アプローチを用いて、政党間の相互作用を分析し、政治討論の風景を形成する中心的なトピックを特定します。
以上の結果から, 保健政策や外交政策といった特定の課題が, 特に急激な選挙期において, 政党間の影響力の触媒としてどのように振る舞うかが示唆された。
論文 参考訳(メタデータ) (2025-06-19T16:35:02Z) - Probing the Vulnerability of Large Language Models to Polysemantic Interventions [49.64902130083662]
2つの小モデル(Pythia-70MとGPT-2-Small)の多意味構造について検討する。
解析の結果,両モデルに共通する一貫した多意味トポロジーが明らかになった。
興味深いことに、この構造を利用して、2つの大きなブラックボックス命令調整モデルに効果的な介入を組み込むことができる。
論文 参考訳(メタデータ) (2025-05-16T18:20:42Z) - Detecting Neurocognitive Disorders through Analyses of Topic Evolution and Cross-modal Consistency in Visual-Stimulated Narratives [84.03001845263]
神経認知障害(NCD)の早期発見は、時間的介入と疾患管理に不可欠である。
音声と視覚刺激の相互整合性を測定するための2つの新しい動的マクロ構造手法を提案する。
TITANはCU-MARVEL-RABBITコーパスとADReSSコーパスの両方で優れた性能を示した。
論文 参考訳(メタデータ) (2025-01-07T12:16:26Z) - Beyond Partisan Leaning: A Comparative Analysis of Political Bias in Large Language Models [6.549047699071195]
本研究では、大規模言語モデルにおける政治的行動を評価するために、ペルソナフリーでトピック固有のアプローチを採用する。
米国、ヨーロッパ、中国、中東で開発された43の大規模言語モデルからの反応を分析した。
発見は、ほとんどのモデルが中心左あるいは左イデオロギー的にリーンであり、非党派的エンゲージメントパターンが異なることを示している。
論文 参考訳(メタデータ) (2024-12-21T19:42:40Z) - Removing Spurious Correlation from Neural Network Interpretations [9.542023122304096]
共同ファウンダーは、このトピックの影響を制御できる新たな因果媒介手法を提案する。
2つの大きな言語モデルを用いた実験では、局所化仮説を検証し、会話トピックの効果に応じて、毒性が局所化されにくくなることを示す。
論文 参考訳(メタデータ) (2024-12-03T22:58:21Z) - Interpreting the Second-Order Effects of Neurons in CLIP [73.54377859089801]
CLIPの個々のニューロンの機能をテキストで自動的に記述することで解釈する。
ニューロンから後続のアテンションヘッドに流れる影響を、直接出力に解析する「第2次レンズ」を提案する。
以上の結果から,ニューロンの自動解釈は,モデル騙しや新しいモデル機能の導入に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-06-06T17:59:52Z) - Inducing Political Bias Allows Language Models Anticipate Partisan
Reactions to Controversies [5.958974943807783]
本研究では,Large Language Models (LLMs) を用いたデジタル談話における政治的偏見の理解の課題に対処する。
本稿では,Partisan Bias Divergence AssessmentとPartisan Class Tendency Predictionからなる包括的分析フレームワークを提案する。
以上の結果から,感情的・道徳的ニュアンスを捉えたモデルの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-11-16T08:57:53Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Inflating Topic Relevance with Ideology: A Case Study of Political
Ideology Bias in Social Topic Detection Models [16.279854003220418]
トレーニングデータにおける政治的イデオロギーバイアスの影響について検討する。
私たちの研究は、人間の選択した入力からバイアスを伝達する、大規模で複雑なモデルの受容性を強調します。
偏見を緩和する手段として,政治的イデオロギーに不変なテキスト表現の学習を提案する。
論文 参考訳(メタデータ) (2020-11-29T05:54:03Z) - Compositional Explanations of Neurons [52.71742655312625]
本稿では, 合成論理的概念を同定し, 深部表現におけるニューロンの説明手順について述べる。
本稿では,視覚と自然言語処理のモデルにおける解釈可能性に関するいくつかの疑問に答えるために,この手順を用いる。
論文 参考訳(メタデータ) (2020-06-24T20:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。