論文の概要: Context-aware Fairness Evaluation and Mitigation in LLMs
- arxiv url: http://arxiv.org/abs/2510.18914v1
- Date: Tue, 21 Oct 2025 06:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.235589
- Title: Context-aware Fairness Evaluation and Mitigation in LLMs
- Title(参考訳): LLMにおける文脈認識の公正度評価と緩和
- Authors: Afrozah Nadeem, Mark Dras, Usman Naseem,
- Abstract要約: 大きな言語モデルは、しばしばその内部表現に埋め込まれた望ましくない振る舞いを示す。
プルーニングベースの手法は、特定の行動に責任があるニューロンを調整することでバイアスを減らす柔軟で透明な方法を提供する。
本研究では,文脈認識ニューロンの活性化を検知する動的で可逆的なプルーニングに基づくフレームワークを提案し,アダプティブマスキングを適用して生成時の影響を調節する。
- 参考スコア(独自算出の注目度): 16.594400974742523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models often display undesirable behaviors embedded in their internal representations, undermining fairness, inconsistency drift, amplification of harmful content, and the propagation of unwanted patterns during extended dialogue and conversations. Although training-time or data-centric methods attempt to reduce these effects, they are computationally expensive, irreversible once deployed, and slow to adapt to new conversational contexts. Pruning-based methods provide a flexible and transparent way to reduce bias by adjusting the neurons responsible for certain behaviors. However, most existing approaches are static; once a neuron is removed, the model loses the ability to adapt when the conversation or context changes. To address this, we propose a dynamic, reversible, pruning-based framework that detects context-aware neuron activations and applies adaptive masking to modulate their influence during generation. Our inference-time solution provides fine-grained, memory-aware mitigation with knowledge-preserved, more coherent behavior across multilingual single- and multi-turn dialogues, enabling dynamic fairness control in real-world conversational AI.
- Abstract(参考訳): 大きな言語モデルは、しばしばその内部表現に埋め込まれた望ましくない振る舞いを示し、公平さを損なうこと、不整合の漂流、有害なコンテンツの増幅、拡張された対話や会話における望ましくないパターンの伝播を示す。
トレーニング時間やデータ中心の手法はこれらの効果を減らそうとしているが、計算コストが高く、一度デプロイされると不可逆であり、新しい会話コンテキストへの適応が遅い。
プルーニングベースの方法は、特定の行動に責任を持つニューロンを調整することでバイアスを減らす柔軟性と透過性を提供する。
しかし、既存のほとんどのアプローチは静的であり、ニューロンが取り除かれると、モデルは会話やコンテキストが変化するときに適応する能力を失う。
そこで本稿では,コンテキスト認識型ニューロン活性化を検知し,適応マスキングを適用して生成時の影響を調節する動的で可逆的,プルーニングに基づくフレームワークを提案する。
我々の推論時間ソリューションは、知識を保存し、多言語でのシングルターンとマルチターン対話をまたいだより一貫性のある動作による、きめ細かいメモリ認識の緩和を提供し、現実世界の会話AIにおける動的公正性制御を可能にします。
関連論文リスト
- Chronological Thinking in Full-Duplex Spoken Dialogue Language Models [66.84843878538207]
時系列思考は、完全なSDLMの応答品質を改善することを目的としている。
追加のレイテンシがない: ユーザが話すのをやめると、エージェントは考えるのをやめ、それ以上の遅延なしに話し始める。
結果: 客観的指標と人的評価の両面から, 時系列思考の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-10-02T10:28:11Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。
最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。
本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文 参考訳(メタデータ) (2024-12-21T02:22:06Z) - Multi-level Adaptive Contrastive Learning for Knowledge Internalization
in Dialogue Generation [37.55417272177113]
知識基底対話生成は、文脈を補うために外部知識を統合することを目的としている。
しかし、このモデルはしばしば、この情報を人間的な方法で応答に内部化するのに失敗する。
否定例を動的にサンプリングし,その後に退化挙動をペナルティ化する多段階適応コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-13T08:16:27Z) - Color Overmodification Emerges from Data-Driven Learning and Pragmatic
Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。
ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-18T18:42:43Z) - Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。
ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文 参考訳(メタデータ) (2020-10-11T08:27:07Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。