論文の概要: Language Models That Walk the Talk: A Framework for Formal Fairness Certificates
- arxiv url: http://arxiv.org/abs/2505.12767v1
- Date: Mon, 19 May 2025 06:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.451657
- Title: Language Models That Walk the Talk: A Framework for Formal Fairness Certificates
- Title(参考訳): 講演を歩む言語モデル:形式的公正認定のためのフレームワーク
- Authors: Danqing Chen, Tobias Ladner, Ahmed Rayen Mhadhbi, Matthias Althoff,
- Abstract要約: 本研究は,トランスフォーマーに基づく言語モデルの堅牢性を証明するための総合的検証フレームワークを提案する。
我々は、性別に関する用語によって男女の公平さと一貫したアウトプットを確保することに重点を置いている。
我々は、この手法を毒性検出に拡張し、敵に操作された有害な入力が一貫して検出され、適切に検閲されるという正式な保証を提供する。
- 参考スコア(独自算出の注目度): 6.5301153208275675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models become integral to high-stakes applications, ensuring their robustness and fairness is critical. Despite their success, large language models remain vulnerable to adversarial attacks, where small perturbations, such as synonym substitutions, can alter model predictions, posing risks in fairness-critical areas, such as gender bias mitigation, and safety-critical areas, such as toxicity detection. While formal verification has been explored for neural networks, its application to large language models remains limited. This work presents a holistic verification framework to certify the robustness of transformer-based language models, with a focus on ensuring gender fairness and consistent outputs across different gender-related terms. Furthermore, we extend this methodology to toxicity detection, offering formal guarantees that adversarially manipulated toxic inputs are consistently detected and appropriately censored, thereby ensuring the reliability of moderation systems. By formalizing robustness within the embedding space, this work strengthens the reliability of language models in ethical AI deployment and content moderation.
- Abstract(参考訳): 大規模言語モデルがハイテイクなアプリケーションに不可欠なものになると、その堅牢性と公平性を保証することが重要になります。
彼らの成功にもかかわらず、大きな言語モデルは敵の攻撃に弱いままであり、同義語置換のような小さな摂動は、モデル予測を変更したり、性バイアスの緩和のような公正なクリティカルな領域や、毒性検出のような安全クリティカルな領域でリスクを生じさせる可能性がある。
ニューラルネットワークの形式的検証が検討されているが、大きな言語モデルへの応用は依然として限られている。
この研究は、トランスフォーマーに基づく言語モデルの堅牢性を証明するための総合的な検証フレームワークを示し、性別の公正性と、性別に関連する用語間の一貫性のある出力を保証することに焦点を当てている。
さらに、この手法を毒性検出に拡張し、敵に操作された有害な入力が一貫して検出され、適切に検閲され、モデレーションシステムの信頼性が保証される。
埋め込み空間内で堅牢性を形式化することにより、倫理的AIデプロイメントとコンテンツモデレーションにおける言語モデルの信頼性が向上する。
関連論文リスト
- Benchmarking the Spatial Robustness of DNNs via Natural and Adversarial Localized Corruptions [49.546479320670464]
本稿では,セグメンテーションモデルの空間的ロバスト性を評価するための特別な指標を紹介する。
本稿では,モデルロバスト性をより深く理解する手法として,地域対応型マルチアタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック・アタック分析を提案する。
その結果、モデルがこれらの2種類の脅威に異なる反応を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-04-02T11:37:39Z) - Enhancing Trust in Large Language Models with Uncertainty-Aware Fine-Tuning [10.457661605916435]
大規模言語モデル(LLM)は、その印象的な推論と質問応答能力によって自然言語処理の分野に革命をもたらした。
LLMは時に、幻覚として知られる、信頼できるが誤った情報を生成する傾向にある。
本稿では,決定論の原理に基づく不確実性を考慮した因果的言語モデリング損失関数を提案する。
論文 参考訳(メタデータ) (2024-12-03T23:14:47Z) - Epistemic Integrity in Large Language Models [11.173637560124828]
大規模な言語モデルは情報ソースにますます頼っているが、偽りや誤解を招く声明の妥当性はユーザーや社会に高いリスクをもたらす。
本稿では,モデルの言語的主張が真の内部的確証を反映しないという,誤校正の重大な問題に直面する。
大規模言語モデルの言語的アサーション性を評価するための,新しい人的ミスアライメント評価と新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-10T17:10:13Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
我々の研究は、最先端のモデルでさえ、与えられた文脈に忠実であり続けるのに苦労することが多く、大きなモデルが必ずしも改善された忠実を示すとは限らないことを明らかにしている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Unveiling Safety Vulnerabilities of Large Language Models [4.562678399685183]
本稿では,AttaQと呼ばれる質問の形で,敵対的な事例を含むユニークなデータセットを提案する。
各種モデルの脆弱性を解析することにより,データセットの有効性を評価する。
脆弱なセマンティック領域を特定し命名するための新しい自動アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-07T16:50:33Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。