論文の概要: Identity-Robust Language Model Generation via Content Integrity Preservation
- arxiv url: http://arxiv.org/abs/2601.09141v1
- Date: Wed, 14 Jan 2026 04:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.261594
- Title: Identity-Robust Language Model Generation via Content Integrity Preservation
- Title(参考訳): コンテンツ統合保存によるアイデンティティ・ロバスト言語モデル生成
- Authors: Miao Zhang, Kelly Chen, Md Mehrab Tanjim, Rumi Chunara,
- Abstract要約: 本稿では,コア応答品質の同一性に依存した劣化について検討する。
このミスマッチに触発された我々は、アイデンティティ・ロバスト生成のための軽量でトレーニング不要なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.599616427460257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) outputs often vary across user sociodemographic attributes, leading to disparities in factual accuracy, utility, and safety, even for objective questions where demographic information is irrelevant. Unlike prior work on stereotypical or representational bias, this paper studies identity-dependent degradation of core response quality. We show empirically that such degradation arises from biased generation behavior, despite factual knowledge being robustly encoded across identities. Motivated by this mismatch, we propose a lightweight, training-free framework for identity-robust generation that selectively neutralizes non-critical identity information while preserving semantically essential attributes, thus maintaining output content integrity. Experiments across four benchmarks and 18 sociodemographic identities demonstrate an average 77% reduction in identity-dependent bias compared to vanilla prompting and a 45% reduction relative to prompt-based defenses. Our work addresses a critical gap in mitigating the impact of user identity cues in prompts on core generation quality.
- Abstract(参考訳): 大規模言語モデル(LLM)のアウトプットは、ユーザのソシオデマトグラフィー属性によって異なり、人口統計情報が無関係な客観的な質問に対しても、事実的正確性、実用性、安全性の相違をもたらす。
ステレオタイプや表現バイアスに関する以前の研究とは異なり、本研究では、コア応答品質のアイデンティティ依存的な劣化について研究する。
事実的知識がアイデンティティにわたって強固に符号化されているにもかかわらず、このような劣化がバイアス発生行動から生じることを実証的に示す。
このミスマッチに触発されて、意味論的に必須な属性を保持しながら、非クリティカルなアイデンティティ情報を選択的に中和し、出力内容の整合性を維持する、アイデンティティ・ロバスト生成のための軽量でトレーニング不要なフレームワークを提案する。
4つのベンチマークと18のソシオデマトグラフィー・アイデンティティによる実験では、バニラ・プロンプトと比較して平均77%のアイデンティティ依存バイアスが減少し、プロンプト・ベース・ディフェンスと比較して45%が減少している。
我々の研究は、ユーザアイデンティティの手がかりがコア生成品質に与える影響を緩和する上で重要なギャップに対処する。
関連論文リスト
- Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。
マルチパーソンシナリオに適した大規模ペアデータセットを開発する。
本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:54Z) - Investigating Intersectional Bias in Large Language Models using Confidence Disparities in Coreference Resolution [5.061421107401101]
大規模言語モデル(LLM)は目覚ましいパフォーマンスを達成し、採用や受け入れといったリソース制約のあるコンテキストで意思決定支援ツールとして広く採用されている。
しかし、AIシステムは社会的バイアスを反映し、さらに悪化させることができるという科学的コンセンサスがあり、批判的な社会的文脈で使用される場合、アイデンティティに基づく害についての懸念が高まる。
本研究では,複数の識別軸が交差する際,異なる不利パターンを生じることを認識して,一軸の公平性評価を拡張し,交差バイアスを検証した。
論文 参考訳(メタデータ) (2025-08-09T22:24:40Z) - Assessing the Reliability of LLMs Annotations in the Context of Demographic Bias and Model Explanation [5.907945985868999]
本研究では,アノテータの人口統計学的特徴がテキストコンテンツと比較してラベル決定に与える影響について検討した。
一般化線形混合モデルを用いて、この差分率を定量化し、観測された分散のごく一部(8%)が人口統計因子であることを示した。
次に、ジェネレーティブAI(GenAI)モデルの信頼性をアノテータとして評価し、人口統計学的パーソナによる指導が人間の判断との整合性を改善するかどうかを具体的に評価する。
論文 参考訳(メタデータ) (2025-07-17T14:00:13Z) - Disentangle Before Anonymize: A Two-stage Framework for Attribute-preserved and Occlusion-robust De-identification [55.741525129613535]
匿名化前の混乱」は、新しい二段階フレームワーク(DBAF)である
このフレームワークには、Contrastive Identity Disentanglement (CID)モジュールとKey-authorized Reversible Identity Anonymization (KRIA)モジュールが含まれている。
大規模な実験により,本手法は最先端の非識別手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-15T08:59:02Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z) - Improving Identity-Robustness for Face Models [9.721206532236515]
顔認識ベクトルをアイデンティティのプロキシとして利用して、このような堅牢性を実現する。
我々は, プロキシ埋め込み空間における条件逆密度(CID)に応じて, サンプルを重み付けする。
このような単純なサンプル重み付け方式はトレーニングの堅牢性を向上するだけでなく,全体的な性能も向上することが示唆された。
論文 参考訳(メタデータ) (2023-04-07T20:41:10Z) - Inductive Biased Estimation: Learning Generalizations for Identity
Transfer [64.4487809928537]
本稿では、適切な一般化の学習を促すために、Errors-in-Variables Adapter (EVA)モデルを提案する。
ポーズ,表現,背景要因の観点で,対象の顔と対象の状況とをよりよく一致させるため,対象の状況が対象の身元に及ぼす影響をモデル化する。
論文 参考訳(メタデータ) (2021-10-04T17:10:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。