論文の概要: Annotation alignment: Comparing LLM and human annotations of conversational safety
- arxiv url: http://arxiv.org/abs/2406.06369v4
- Date: Mon, 07 Oct 2024 17:13:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:39:46.922527
- Title: Annotation alignment: Comparing LLM and human annotations of conversational safety
- Title(参考訳): アノテーションアライメント:LLMと人間の会話安全アノテーションの比較
- Authors: Rajiv Movva, Pang Wei Koh, Emma Pierson,
- Abstract要約: 近年のDICESデータセットを用いて、チャットボットの安全性の認識がユーザによる安全性の認識とどの程度一致しているかを調査する。
LLMが異なる人口集団とどのように相関するかの相違を示すためには、より大きなデータセットが必要であることを示す。
GPT-4は、ある集団が他の集団よりも会話が安全でないと予測できない。
- 参考スコア(独自算出の注目度): 10.143093546513857
- License:
- Abstract: Do LLMs align with human perceptions of safety? We study this question via annotation alignment, the extent to which LLMs and humans agree when annotating the safety of user-chatbot conversations. We leverage the recent DICES dataset (Aroyo et al., 2023), in which 350 conversations are each rated for safety by 112 annotators spanning 10 race-gender groups. GPT-4 achieves a Pearson correlation of $r = 0.59$ with the average annotator rating, \textit{higher} than the median annotator's correlation with the average ($r=0.51$). We show that larger datasets are needed to resolve whether LLMs exhibit disparities in how well they correlate with different demographic groups. Also, there is substantial idiosyncratic variation in correlation within groups, suggesting that race & gender do not fully capture differences in alignment. Finally, we find that GPT-4 cannot predict when one demographic group finds a conversation more unsafe than another.
- Abstract(参考訳): LLMは人間の安全に対する認識と一致しているか?
我々は,ユーザ・チャットボットの会話の安全性に注釈を付ける際に,LLMと人間がどのように一致しているかをアノテーションアライメントを用いて検討する。
私たちは最近のDICESデータセット(Aroyo et al , 2023)を活用し、350の会話が10のレースジェンダーグループにまたがる112のアノテータによって安全のために評価される。
GPT-4 は、平均アノテータ格付けの $r = 0.59$ と平均アノテータ格付けの \textit{higher} とのピアソン相関を平均 (r=0.51$) との平均アノテータの相関よりも達成する。
より大規模なデータセットは、LLMが異なる人口集団とどのように相関するかの相違を示すかどうかを判断するために必要であることを示す。
また、グループ内の相関関係には相当な慣用的変化があり、人種と性別がアライメントの差を完全に捉えていないことを示唆している。
最後に、GPT-4は、ある集団が他の集団よりも会話が安全でないと予測できないことを発見した。
関連論文リスト
- With a Grain of SALT: Are LLMs Fair Across Social Dimensions? [3.979019316355144]
本稿では,オープンソースLarge Language Models (LLM) における様々な性別,宗教,人種間のバイアスの分析を行う。
一般討論,定位討論,キャリアアドバイザ,ストーリー生成,問題解決,カバーレタライティング,CV生成という,7つのバイアストリガを用いたバイアス検出データセットを生成する手法を提案する。
我々は, GPT-4o-mini を用いて各グループに関連付けられた LLM 生成テキストを匿名化し, GPT-4o-as-a-Judge を用いて相互比較を行う。
論文 参考訳(メタデータ) (2024-10-16T12:22:47Z) - Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。
LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか?
その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文 参考訳(メタデータ) (2024-09-23T17:58:07Z) - How Aligned are Different Alignment Metrics? [6.172390472790253]
我々はBrain-Scoreの視覚データを人間の類似性やアライメントの指標とともに分析する。
ニューラルスコアと行動スコアの相互相関は非常に低く、時にはネガティブである。
この結果は,統合的ベンチマークの重要性を浮き彫りにしているだけでなく,個々のメトリクスを正しく組み合わせて集約する方法に関する疑問も提起している。
論文 参考訳(メタデータ) (2024-07-10T10:36:11Z) - PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。
全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文 参考訳(メタデータ) (2024-06-20T18:37:36Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。
G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。
また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文 参考訳(メタデータ) (2023-10-09T12:12:55Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。