論文の概要: Faithful-Patchscopes: Understanding and Mitigating Model Bias in Hidden Representations Explanation of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.00300v1
- Date: Fri, 30 Jan 2026 20:50:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.106218
- Title: Faithful-Patchscopes: Understanding and Mitigating Model Bias in Hidden Representations Explanation of Large Language Models
- Title(参考訳): 忠実パッチスコープ:大規模言語モデルの隠蔽表現におけるモデルバイアスの理解と緩和
- Authors: Xilin Gong, Shu Yang, Zehua Cao, Lynne Billard, Di Wang,
- Abstract要約: 大規模言語モデルは、隠れ表現に符号化された文脈情報をオーバーライドできる固有の言語パターンに依存する傾向があることを示す。
この行動はパッチスコープにおいて体系的な不信感を示す。
本稿では,BALOR(Bias Alignment through Logit Recalibration)を提案する。これは未パッチのプロンプトからの出力ロジットをモデルバイアスのキャプチャとして扱い,パッチ付きコンテキスト情報に基づいて得られるロジットと対比する。
- 参考スコア(独自算出の注目度): 6.630866776464356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong capabilities for hidden representation interpretation through Patchscopes, a framework that uses LLMs themselves to generate human-readable explanations by decoding from internal hidden representations. However, our work shows that LLMs tend to rely on inherent linguistic patterns, which can override contextual information encoded in the hidden representations during decoding. For example, even when a hidden representation encodes the contextual attribute "purple" for "broccoli", LLMs still generate "green" in their explanations, reflecting a strong prior association. This behavior reveals a systematic unfaithfulness in Patchscopes. To systematically study this issue, we first designed a dataset to evaluate the faithfulness of Patchscopes under biased cases, and our results show that there is an 18.84\% faithfulness decrease on average. We then propose Bias Alignment through Logit Recalibration (BALOR), which treats the output logits from an unpatched prompt as capturing model bias and contrasts them with logits obtained under patched contextual information. By recalibrating the logit distribution through this contrast, BALOR suppresses model bias and amplifies contextual information during generation. Experiments across multiple LLMs demonstrate that BALOR consistently outperforms existing baselines, achieving up to 33\% relative performance improvement.
- Abstract(参考訳): LLM(Large Language Models)は、内部の隠された表現から復号することで、LLM自体を使用して人間可読な説明を生成するフレームワークであるPatchscopesを通じて、隠された表現解釈の強力な能力を実証している。
しかし,本研究では,LLMは,デコード中に隠された表現にエンコードされた文脈情報をオーバーライドする,固有の言語パターンに依存しやすいことを示す。
例えば、隠された表現が "broccoli" の文脈的属性 "purple" をエンコードしている場合でも、LLM はその説明において "green" を生成し、強い先行関係を反映している。
この行動はパッチスコープにおいて体系的な不信感を示す。
この問題を体系的に研究するために,まず,偏りのある場合におけるパッチスコープの忠実度を評価するデータセットを設計し,その結果,平均18.84\%の忠実度が低下していることが判明した。
次に、BALOR(Bias Alignment through Logit Recalibration)を提案する。これは、未パッチのプロンプトからの出力ロジットをモデルバイアスのキャプチャとして扱い、パッチ付きコンテキスト情報に基づいて得られるロジットと対比する。
このコントラストを通じてロジット分布を再計算することにより、BALORはモデルバイアスを抑制し、生成時のコンテキスト情報を増幅する。
複数のLLMでの実験では、BALORは既存のベースラインを一貫して上回り、最大33倍の性能改善を実現している。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。
特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。
そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-21T16:36:42Z) - Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations [46.351064535592336]
大規模言語モデル(LLM)は、事実の不正確さやバイアス、推論失敗など、しばしばエラーを発生させる。
近年の研究では、LLMの内部状態が出力の真偽に関する情報を符号化していることが示されている。
LLMの内部表現は、これまで認識されていた以上の真理性に関する情報を符号化している。
論文 参考訳(メタデータ) (2024-10-03T17:31:31Z) - Debiasing Multimodal Large Language Models via Penalization of Language Priors [38.97645845493758]
MLLM(Multimodal Large Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
生成されたコンテンツは、入力画像よりも、基礎となるLarge Language Models (LLMs) の本質的な先行性によって駆動されることが多い。
本稿では、これらのバイアスを補正し、視覚情報に対するモデルの焦点をリダイレクトするための、単純でトレーニングのない2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Attention-likelihood relationship in transformers [2.8304391396200064]
我々は、大言語モデル(LLM)が文脈外単語をどのように表現しているかを分析し、その意味を捉えるために、与えられた文脈への依存を調査する。
我々の可能性誘導型テキスト摂動は、トランスフォーマーベース言語モデルにおけるトークン確率と注意値の相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-03-15T00:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。