論文の概要: Out-Of-Context Prompting Boosts Fairness and Robustness in Large Language Model Predictions
- arxiv url: http://arxiv.org/abs/2406.07685v1
- Date: Tue, 11 Jun 2024 20:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 21:16:01.861103
- Title: Out-Of-Context Prompting Boosts Fairness and Robustness in Large Language Model Predictions
- Title(参考訳): 大規模言語モデル予測におけるアウトオフコンテキストプロンプトの公正性とロバスト性向上
- Authors: Leonardo Cotta, Chris J. Maddison,
- Abstract要約: 我々は,Frontier Large Language Modelsの信頼性を向上させるためのテストタイム戦略を開発する。
我々は因果性を利用して、LLMにおける信頼の2つの側面、すなわち公正性と堅牢性を公式にエンコードする。
文外処理により,フロンティアLLMの公平性と堅牢性は一貫して向上することを示す。
- 参考スコア(独自算出の注目度): 17.758735680493917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier Large Language Models (LLMs) are increasingly being deployed for high-stakes decision-making. On the other hand, these models are still consistently making predictions that contradict users' or society's expectations, e.g., hallucinating, or discriminating. Thus, it is important that we develop test-time strategies to improve their trustworthiness. Inspired by prior work, we leverage causality as a tool to formally encode two aspects of trustworthiness in LLMs: fairness and robustness. Under this perspective, existing test-time solutions explicitly instructing the model to be fair or robust implicitly depend on the LLM's causal reasoning capabilities. In this work, we explore the opposite approach. Instead of explicitly asking the LLM for trustworthiness, we design prompts to encode the underlying causal inference algorithm that will, by construction, result in more trustworthy predictions. Concretely, we propose out-of-context prompting as a test-time solution to encourage fairness and robustness in LLMs. Out-of-context prompting leverages the user's prior knowledge of the task's causal model to apply (random) counterfactual transformations and improve the model's trustworthiness. Empirically, we show that out-of-context prompting consistently improves the fairness and robustness of frontier LLMs across five different benchmark datasets without requiring additional data, finetuning or pre-training.
- Abstract(参考訳): Frontier Large Language Models (LLMs)は、高い意思決定のためにますますデプロイされている。
一方で、これらのモデルは、ユーザや社会の期待に反する予測、例えば、幻覚、あるいは差別を継続的に行っています。
したがって、信頼性を向上させるためのテストタイム戦略を開発することが重要である。
従来の作業にインスパイアされた私たちは、因果関係をツールとして活用して、LLMにおける信頼の2つの側面、すなわち公正性と堅牢性を公式にエンコードします。
この観点では、既存のテストタイムソリューションは、モデルに公正か堅牢かを明確に指示するが、LLMの因果推論能力に依存している。
この研究では、反対のアプローチを探求する。
LLMに信頼性を明示的に求める代わりに、我々は、構築によってより信頼性の高い予測をもたらす根底にある因果推論アルゴリズムを符号化するプロンプトを設計する。
具体的には、LLMの公平性と堅牢性を促進するテストタイムソリューションとして、アウト・オブ・コンテクストを提案する。
アウト・オブ・コンテクスト(Out-of-context prompting)は、タスクの因果モデルに関するユーザの事前の知識を活用して、(ランダムな)反事実変換を適用し、モデルの信頼性を向上させる。
経験的に、アウト・オブ・コンテクストは、追加のデータや微調整や事前学習を必要とせずに、5つのベンチマークデータセットにわたるフロンティアLSMの公平性と堅牢性を一貫して改善することを示す。
関連論文リスト
- Investigating Implicit Bias in Large Language Models: A Large-Scale Study of Over 50 LLMs [0.0]
大規模言語モデル(LLM)は幅広いタスクで採用されている。
最近の研究では、LLMは明示的な偏見評価をパスしても暗黙の偏見を抑えることができることが示されている。
この研究は、新しい言語モデルやより大きな言語モデルが自動的にバイアスを減らさないことを強調している。
論文 参考訳(メタデータ) (2024-10-13T03:43:18Z) - Editable Fairness: Fine-Grained Bias Mitigation in Language Models [52.66450426729818]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Towards Understanding Task-agnostic Debiasing Through the Lenses of Intrinsic Bias and Forgetfulness [10.081447621656523]
言語モデリング能力に影響を及ぼす影響は、高品質でコンテキストの長いデバイアスコーパスによって緩和することができる。
タスク依存型デバイアスングヒンジの有効性は、下流アプリケーションに使用されるタスク固有データとデバイアスドモデルの両方の量的バイアスレベルに影響を及ぼす。
本稿では,ソーシャル・フェア・デバイアスを下流ファインチューニング,ProSocialTuningに伝達する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-06T15:11:11Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。