論文の概要: Beyond Hidden-Layer Manipulation: Semantically-Aware Logit Interventions for Debiasing LLMs
- arxiv url: http://arxiv.org/abs/2510.23650v1
- Date: Sat, 25 Oct 2025 12:45:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.313625
- Title: Beyond Hidden-Layer Manipulation: Semantically-Aware Logit Interventions for Debiasing LLMs
- Title(参考訳): 隠れ層マニピュレーションを超えて:LLMの劣化に対するセマンティックなロジット介入
- Authors: Wei Xia,
- Abstract要約: 動的にバイアスを最大70%減らす。
セマンティック・アウェア・ロジットの介入は安定であり, 協調LLMの劣化に有効である。
- 参考スコア(独自算出の注目度): 9.226578443638521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We proposed Static and Dynamic -- two zero-shot logits-layer debiasing methods. Dynamic reduces bias by up to 70% with minimal fluency loss. Logits intervention outperforms hidden-layer approaches. We show semantic-aware logits intervention is stable and effective for debiasing aligned LLMs.
- Abstract(参考訳): 我々は2つのゼロショットロジット層デバイアス法(Static and Dynamic)を提案した。
動的にバイアスを最大70%減らす。
ログの介入は、隠れたレイヤーアプローチより優れています。
セマンティック・アウェア・ロジットの介入は安定であり, 協調LLMの劣化に有効である。
関連論文リスト
- DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - Disentangling Static and Dynamic Information for Reducing Static Bias in Action Recognition [7.926707765944282]
行動認識モデルは、動的な人間の動きよりも静的な手がかりに過度に依存している。
このバイアスは、現実世界のアプリケーションにおけるパフォーマンスの低下とゼロショットアクション認識につながる。
本研究では,静的シーン情報から時間的動的情報を分離することで,静的バイアスを低減する手法を提案する。
論文 参考訳(メタデータ) (2025-09-27T00:03:41Z) - Rethinking Layer-wise Gaussian Noise Injection: Bridging Implicit Objectives and Privacy Budget Allocation [11.461532588974215]
LGM(Layer-wise Gaussian Mechanism)は、分割された勾配ベクトルにノイズを注入することにより、微分プライベートなディープラーニングにおける柔軟性を高める。
既存の手法は、しばしばノイズアロケーション戦略に依存しており、ノイズアロケーションと正式なプライバシー利用トレードオフを接続する理論上の根拠を厳格に理解していない。
両面を統一したSNR-Consistentノイズアロケーション戦略を提案し,より優れた信号保存とより効率的なプライバシ予算利用を実現するノイズアロケーション方式を提案する。
論文 参考訳(メタデータ) (2025-09-04T14:09:46Z) - DISC: Dynamic Decomposition Improves LLM Inference Scaling [83.5708537758088]
LLMの推論スケーリング手法は、しばしば問題をステップに分解し、次にサンプリングし、次のステップを選択する。
本稿では,動的分解法を提案する。この手法は,解を適応的に自動分割し,トレースを推論中に管理可能なステップに分割する手法である。
論文 参考訳(メタデータ) (2025-02-23T20:37:32Z) - Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。
Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。
DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文 参考訳(メタデータ) (2025-02-08T01:20:09Z) - CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models [37.476241509187304]
大規模言語モデル(LLM)は、広範囲なデータに対する事前学習を通じて、優れたパフォーマンスを達成する。
基本的なメカニズムにおける解釈可能性の欠如は、特定のアプリケーションに対してLLMを効果的に操る能力を制限する。
本稿では,パラメータ効率の優れた微調整法に基づく効率的な選択的層干渉法を提案する。
論文 参考訳(メタデータ) (2024-10-23T09:40:15Z) - A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - The Gaps between Pre-train and Downstream Settings in Bias Evaluation
and Debiasing [74.7319697510621]
In-Context Learning (ICL)は、FTベースのデバイアス法と比較して、PLMの変更を小さくする。
ICL-based debiasing method is a higher correlation between intrinsic and extrinsic bias scores than FT-based method。
論文 参考訳(メタデータ) (2024-01-16T17:15:08Z) - Self-Supervised Position Debiasing for Large Language Models [39.261233221850155]
大規模言語モデル(LLM)における位置バイアスを軽減するための自己教師型位置偏差検出(SOD)フレームワークを提案する。
8つのデータセットと5つのタスクの実験により、SODは3つのタイプの位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。