論文の概要: Fine-Grained Interpretation of Political Opinions in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.04774v1
- Date: Thu, 05 Jun 2025 09:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.616655
- Title: Fine-Grained Interpretation of Political Opinions in Large Language Models
- Title(参考訳): 大規模言語モデルにおける政治的意見の微粒化解釈
- Authors: Jingyu Hu, Mengyue Yang, Mengnan Du, Weiru Liu,
- Abstract要約: 近年の研究では,LSMの反応と内的意図の相違が指摘されている。
このことは、LSMの内部メカニズムを調査し、内部の政治状態を明らかにするのに役立ちます。
我々は、4次元の政治学習フレームワークを設計し、詳細な政治概念ベクトル学習のための対応するデータセットを構築した。
- 参考スコア(独自算出の注目度): 19.21833592916603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Studies of LLMs' political opinions mainly rely on evaluations of their open-ended responses. Recent work indicates that there is a misalignment between LLMs' responses and their internal intentions. This motivates us to probe LLMs' internal mechanisms and help uncover their internal political states. Additionally, we found that the analysis of LLMs' political opinions often relies on single-axis concepts, which can lead to concept confounds. In this work, we extend the single-axis to multi-dimensions and apply interpretable representation engineering techniques for more transparent LLM political concept learning. Specifically, we designed a four-dimensional political learning framework and constructed a corresponding dataset for fine-grained political concept vector learning. These vectors can be used to detect and intervene in LLM internals. Experiments are conducted on eight open-source LLMs with three representation engineering techniques. Results show these vectors can disentangle political concept confounds. Detection tasks validate the semantic meaning of the vectors and show good generalization and robustness in OOD settings. Intervention Experiments show these vectors can intervene in LLMs to generate responses with different political leanings.
- Abstract(参考訳): LLMの政治的意見の研究は、主にオープンな反応の評価に依存している。
近年の研究では,LSMの反応と内的意図の相違が指摘されている。
このことは、LSMの内部メカニズムを調査し、内部の政治状態を明らかにするのに役立ちます。
さらに、LLMの政治的意見の分析は、しばしば単一軸の概念に依存しており、概念の相違につながることが判明した。
本研究では、単一軸を多次元に拡張し、より透過的なLLM政治概念学習に解釈可能な表現工学技術を適用する。
具体的には、4次元の政治学習フレームワークを設計し、詳細な政治概念ベクトル学習のための対応するデータセットを構築した。
これらのベクターはLLM内部の検知と介入に使用できる。
8つのオープンソース LLM で3つの表現工学技術を用いて実験を行った。
結果は、これらのベクトルが政治的概念を混乱させる可能性があることを示している。
検出タスクは、ベクトルの意味を検証し、OOD設定において、優れた一般化とロバスト性を示す。
介入実験は、これらのベクターがLLMに介入し、異なる政治的傾きで反応を生成することを示す。
関連論文リスト
- Linear Representations of Political Perspective Emerge in Large Language Models [2.2462222233189286]
大規模言語モデル(LLM)は、様々な主観的人間の視点を現実的に反映するテキストを生成する能力を示した。
本稿は、LLMがアメリカの政治における他の政治的視点の中で、よりリベラルで保守的な視点を反映できるように見えるかを研究する。
論文 参考訳(メタデータ) (2025-03-03T21:59:01Z) - Examining Alignment of Large Language Models through Representative Heuristics: The Case of Political Stereotypes [20.407518082067437]
本研究では,大規模言語モデル(LLM)と人的価値との整合性を検討した。
政治問題に関する実証的な立場からLLMの逸脱に寄与する要因を分析した。
LLMは特定の政党の立場を模倣できるが、人間の調査回答者よりもこれらの立場を誇張することが多い。
論文 参考訳(メタデータ) (2025-01-24T07:24:23Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Whose Side Are You On? Investigating the Political Stance of Large Language Models [56.883423489203786]
大規模言語モデル(LLM)の政治的指向性について,8つのトピックのスペクトルにわたって検討する。
我々の調査は、中絶からLGBTQ問題まで8つのトピックにまたがるLLMの政治的整合性について考察している。
この結果から,ユーザはクエリ作成時に留意すべきであり,中立的なプロンプト言語を選択する際には注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-15T04:02:24Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - The Political Preferences of LLMs [0.0]
私は、テストテイカーの政治的嗜好を特定するために、11の政治的指向テストを実行し、24の最先端の会話型LLMを実行します。
ほとんどの会話型LLMは、ほとんどの政治的テスト機器によって、中心の視点の好みを示すものとして認識される応答を生成する。
LLMは、スーパービジョンファインチューニングを通じて、政治スペクトルの特定の場所に向けて操れることを実証します。
論文 参考訳(メタデータ) (2024-02-02T02:43:10Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。