論文の概要: MPF: Aligning and Debiasing Language Models post Deployment via Multi Perspective Fusion
- arxiv url: http://arxiv.org/abs/2507.02595v1
- Date: Thu, 03 Jul 2025 13:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.287745
- Title: MPF: Aligning and Debiasing Language Models post Deployment via Multi Perspective Fusion
- Title(参考訳): MPF: マルチパースペクティブフュージョンによるデプロイ後の言語モデルのアラインメントとデバイアス
- Authors: Xin Guan, PeiHsin Lin, Zekun Wu, Ze Wang, Ruibo Zhang, Emre Kazim, Adriano Koshiyama,
- Abstract要約: マルチパースペクティブ・フュージョン(MPF、Multiperspective Fusion)は、大規模言語モデル(LLM)のための新しいトレーニング後アライメントフレームワークである。
MPFは、バイアスベンチマークを構築し、解釈可能なベースライン分布を抽出する自動化システムであるSAGEDパイプライン上に構築されている。
- 参考スコア(独自算出の注目度): 12.98602200999852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multiperspective Fusion (MPF) is a novel posttraining alignment framework for large language models (LLMs) developed in response to the growing need for easy bias mitigation. Built on top of the SAGED pipeline, an automated system for constructing bias benchmarks and extracting interpretable baseline distributions, MPF leverages multiperspective generations to expose and align biases in LLM outputs with nuanced, humanlike baselines. By decomposing baseline, such as sentiment distributions from HR professionals, into interpretable perspective components, MPF guides generation through sampling and balancing of responses, weighted by the probabilities obtained in the decomposition. Empirically, we demonstrate its ability to align LLM sentiment distributions with both counterfactual baselines (absolute equality) and the HR baseline (biased for Top Univeristy), resulting in small KL divergence, reduction of calibration error and generalization to unseen questions. This shows that MPF offers a scalable and interpretable method for alignment and bias mitigation, compatible with deployed LLMs and requiring no extensive prompt engineering or finetuning.
- Abstract(参考訳): マルチパースペクティブ・フュージョン(MPF、Multiperspective Fusion)は、大規模言語モデル(LLM)のための新しいトレーニング後アライメントフレームワークである。
バイアスベンチマークを構築し、解釈可能なベースライン分布を抽出する自動化システムであるSAGEDパイプライン上に構築されたMPFは、マルチパースペクティブ世代を活用して、微妙な人間に似たベースラインでLLM出力のバイアスを公開およびアライメントする。
HR専門家からの感情分布などのベースラインを解釈可能な視点成分に分解することにより、MPFは、分解で得られる確率によって重み付けられた応答のサンプリングとバランスを通じて生成をガイドする。
実験により,LLMの感情分布を反実的ベースライン(絶対等式)とHRベースライン(トップユニバリスト)の両方に整合させることで,KLのばらつきが小さくなり,校正誤差が減少し,不明瞭な質問への一般化が図られた。
このことは、MPFがアライメントとバイアス軽減のためのスケーラブルで解釈可能な方法を提供し、デプロイされたLLMと互換性があり、広範なプロンプトエンジニアリングや微調整を必要としないことを示している。
関連論文リスト
- A Multi-LLM Debiasing Framework [85.17156744155915]
大規模言語モデル(LLM)は、社会に多大な利益をもたらす可能性がある強力なツールであるが、社会的不平等を持続するバイアスを示す。
近年,マルチLLM手法への関心が高まっており,推論の質向上に有効であることが示されている。
LLMのバイアス低減を目的としたマルチLLMデバイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T20:24:50Z) - Ensemble Learning for Heterogeneous Large Language Models with Deep Parallel Collaboration [39.35476224845088]
大規模言語モデル(LLM)は様々なタスクにおいて補完的な強みを示し、LLMアンサンブルの研究を動機付けている。
本稿では,各復号ステップで異なるLLMから得られる情報的確率分布を融合した学習自由アンサンブルフレームワークDeePEnを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:52:22Z) - REQUAL-LM: Reliability and Equity through Aggregation in Large Language Models [10.684722193666607]
本稿では,信頼度の高い大規模言語モデル (LLM) の出力をアグリゲーションによって検出する新しい手法であるREQUAL-LMを紹介する。
具体的には、繰り返しサンプリングに基づくモンテカルロ法を開発し、可能な出力の基底分布の平均に近い信頼性のある出力を求める。
信頼性とバイアスといった用語を正式に定義し、信頼性の高いアウトプットを見つけながら有害なバイアスを最小限に抑えるために、株式を意識したアグリゲーションを設計する。
論文 参考訳(メタデータ) (2024-04-17T22:12:41Z) - CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning [59.88924847995279]
MTSFのためのクロスモーダルLCMファインチューニング(CALF)フレームワークを提案する。
分散の相違を低減するため,クロスモーダルマッチングモジュールを開発した。
CALFは、長期および短期の予測タスクの最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-03-12T04:04:38Z) - Large Language Model (LLM) Bias Index -- LLMBI [0.0]
LLMBI(Large Language Model Bias Index)は、大規模言語モデル(LLM)に固有のバイアスを定量化し、対処するための先駆的なアプローチである。
年齢,性別,人種的偏見に限らず,多次元の偏見を取り入れた複合スコアリングシステムを用いたLLMBIの定式化を行った。
OpenAIのAPIからの応答を用いた実証分析では,バイアス検出の代表的な方法として,高度な感情分析を採用している。
論文 参考訳(メタデータ) (2023-12-22T15:38:13Z) - Mitigating the Alignment Tax of RLHF [76.4300447532456]
強化学習(Reinforcement Learning)とヒューマンフィードバック(Human Feedback)の下のLLMの調整は、事前訓練された能力(アライメント税(アライメント税)としても知られる)を忘れてしまう可能性がある。
最小アライメント税を課しながらアライメント性能を最大化するためのモデル平均化を提案する。
我々は,OpenLLaMA-3B上でのRLHFアルゴリズムによるHMAの性能評価を行い,さらにMistral-7Bまで拡張した。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Learning in Imperfect Environment: Multi-Label Classification with
Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。
その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。
textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文 参考訳(メタデータ) (2023-04-20T20:05:08Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。