論文の概要: Semantic and Structural Analysis of Implicit Biases in Large Language Models: An Interpretable Approach
- arxiv url: http://arxiv.org/abs/2508.06155v1
- Date: Fri, 08 Aug 2025 09:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.173545
- Title: Semantic and Structural Analysis of Implicit Biases in Large Language Models: An Interpretable Approach
- Title(参考訳): 大規模言語モデルにおける命令ビアーゼの意味的・構造的解析 : 解釈可能なアプローチ
- Authors: Renhan Zhang, Lian Lian, Zhen Qi, Guiran Liu,
- Abstract要約: モデル出力に隠された社会的バイアスを特定するための解釈可能なバイアス検出手法を提案する。
この方法は、ネストされた意味表現と文脈的コントラスト機構を組み合わせる。
この評価は、バイアス検出精度、セマンティック一貫性、文脈感度など、いくつかの重要な指標に焦点を当てている。
- 参考スコア(独自算出の注目度): 1.5749416770494704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the issue of implicit stereotypes that may arise during the generation process of large language models. It proposes an interpretable bias detection method aimed at identifying hidden social biases in model outputs, especially those semantic tendencies that are not easily captured through explicit linguistic features. The method combines nested semantic representation with a contextual contrast mechanism. It extracts latent bias features from the vector space structure of model outputs. Using attention weight perturbation, it analyzes the model's sensitivity to specific social attribute terms, thereby revealing the semantic pathways through which bias is formed. To validate the effectiveness of the method, this study uses the StereoSet dataset, which covers multiple stereotype dimensions including gender, profession, religion, and race. The evaluation focuses on several key metrics, such as bias detection accuracy, semantic consistency, and contextual sensitivity. Experimental results show that the proposed method achieves strong detection performance across various dimensions. It can accurately identify bias differences between semantically similar texts while maintaining high semantic alignment and output stability. The method also demonstrates high interpretability in its structural design. It helps uncover the internal bias association mechanisms within language models. This provides a more transparent and reliable technical foundation for bias detection. The approach is suitable for real-world applications where high trustworthiness of generated content is required.
- Abstract(参考訳): 本稿では,大規模言語モデルの生成過程で生じる暗黙のステレオタイプの問題に対処する。
モデル出力における隠された社会的バイアスの同定を目的とした解釈可能なバイアス検出手法を提案する。
この方法は、ネストされた意味表現と文脈的コントラスト機構を組み合わせる。
モデル出力のベクトル空間構造から潜在バイアス特徴を抽出する。
注意重みの摂動を用いて、特定の社会的属性項に対するモデルの感度を分析し、バイアスが形成される意味的な経路を明らかにする。
本手法の有効性を検証するために, 性別, 職業, 宗教, 人種を含む複数のステレオタイプ次元をカバーするStereoSetデータセットを用いた。
この評価は、バイアス検出精度、セマンティック一貫性、文脈感度など、いくつかの重要な指標に焦点を当てている。
実験結果から,提案手法は様々な次元にわたって強い検出性能を発揮することがわかった。
セマンティックに類似したテキスト間のバイアスの差を正確に識別し、高いセマンティックアライメントと出力安定性を維持する。
この手法は構造設計における高い解釈可能性を示す。
これは言語モデルの内部バイアス関連メカニズムを明らかにするのに役立つ。
これにより、バイアス検出のためのより透明で信頼性の高い技術基盤が提供される。
このアプローチは、生成されたコンテンツの高い信頼性を必要とする現実世界のアプリケーションに適している。
関連論文リスト
- Explaining News Bias Detection: A Comparative SHAP Analysis of Transformer Model Decision Mechanisms [0.2538209532048867]
本稿では,BABEデータセットに微調整されたバイアス検出モデルと,BABEデータセットに微調整されたドメイン適応型RoBERTaモデルとの2つのバイアス検出モデルの比較解釈可能性について述べる。
モデルアーキテクチャの違いが言語バイアスをどう操作するかを特徴付けるために、正しい予測と不正確な予測にまたがる単語レベルの属性を分析する。
論文 参考訳(メタデータ) (2025-12-29T19:58:11Z) - SCALEX: Scalable Concept and Latent Exploration for Diffusion Models [59.86284983662119]
画像生成モデルは、しばしば、性別、人種、職業に関連するステレオタイプを含む社会的バイアスを符号化する。
拡散モデルラテント空間のスケーラブルかつ自動探索のためのフレームワークであるSCALEXを紹介する。
自然言語プロンプトのみを使用して、H空間から意味論的に意味のある方向を抽出し、リトレーニングやラベル付けをせずにゼロショット解釈を可能にする。
論文 参考訳(メタデータ) (2025-11-13T22:02:44Z) - Reliable Cross-modal Alignment via Prototype Iterative Construction [40.09297916971621]
クロスモーダルアライメントは重要なマルチモーダルタスクであり、異なるモーダル間のセマンティックギャップを橋渡しすることを目的としている。
従来の方法では、埋め込みは意味情報のみを含むと暗黙的に仮定し、アライメント中の非意味情報の影響を無視している。
組込み相互作用におけるスタイル干渉を抑制する新しいフレームワークであるPICOを提案する。
論文 参考訳(メタデータ) (2025-10-13T09:08:27Z) - Target-oriented Multimodal Sentiment Classification with Counterfactual-enhanced Debiasing [5.0175188046562385]
マルチモーダル感情分類は、画像とテキストのペアから特定のターゲットに対する感情極性を予測しようとする。
既存の作業はしばしばテキストの内容に過度に依存し、データセットのバイアスを考慮できない。
本稿では,このような突発的相関を低減すべく,新たな反事実強化脱バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-11T05:40:53Z) - NBIAS: A Natural Language Processing Framework for Bias Identification
in Text [9.486702261615166]
テキストデータのバイアスは、データが使用されると歪んだ解釈や結果につながる可能性がある。
偏りのあるデータに基づいて訓練されたアルゴリズムは、あるグループに不公平に影響を及ぼす決定を下すかもしれない。
我々は,データ,コーパス構築,モデル開発,評価レイヤの4つの主要レイヤからなる包括的フレームワーク NBIAS を開発した。
論文 参考訳(メタデータ) (2023-08-03T10:48:30Z) - Fixing confirmation bias in feature attribution methods via semantic
match [4.733072355085082]
モデル上の仮説が特徴属性によって確認されるかどうかを検証するためには,構造的アプローチが必要である,と我々は主張する。
これは、人間の概念と(サブシンボリックな)説明の「セマンティックマッチ」と呼ばれるものです。
論文 参考訳(メタデータ) (2023-07-03T09:50:08Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Mind Your Bias: A Critical Review of Bias Detection Methods for
Contextual Language Models [2.170169149901781]
文脈言語モデルに対する厳密な分析とバイアス検出手法の比較を行う。
私たちの結果は、マイナーな設計と実装の決定(またはエラー)が、導出バイアススコアに大きく、しばしば重大な影響を与えていることを示している。
論文 参考訳(メタデータ) (2022-11-15T19:27:54Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Temporal Embeddings and Transformer Models for Narrative Text
Understanding [72.88083067388155]
キャラクタ関係モデリングのための物語テキスト理解のための2つのアプローチを提案する。
これらの関係の時間的進化は動的単語埋め込みによって説明され、時間とともに意味的変化を学ぶように設計されている。
最新の変換器モデルBERTに基づく教師付き学習手法を用いて文字間の静的な関係を検出する。
論文 参考訳(メタデータ) (2020-03-19T14:23:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。