Fugu-MT 論文翻訳(概要): Annotation alignment: Comparing LLM and human annotations of conversational safety

論文の概要: Annotation alignment: Comparing LLM and human annotations of conversational safety

arxiv url: http://arxiv.org/abs/2406.06369v1
Date: Mon, 10 Jun 2024 15:30:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 13:28:42.043702
Title: Annotation alignment: Comparing LLM and human annotations of conversational safety
Title（参考訳）: アノテーションアライメント:LLMと人間の会話安全アノテーションの比較
Authors: Rajiv Movva, Pang Wei Koh, Emma Pierson,
Abstract要約: GPT-4は平均アノテータ評価値と平均アノテータの相関値との平均アノテータの相関値との平均アノテータの相関値よりも高い$r = 0.59$のピアソン相関値が得られることを示す。相関群と*群との間には相当な慣用的変動があり、人種と性別がアライメントの差を完全に捉えていないことを示唆している。
参考スコア（独自算出の注目度）: 10.143093546513857
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: To what extent to do LLMs align with human perceptions of safety? We study this question via *annotation alignment*, the extent to which LLMs and humans agree when annotating the safety of user-chatbot conversations. We leverage the recent DICES dataset (Aroyo et al., 2023), in which 350 conversations are each rated for safety by 112 annotators spanning 10 race-gender groups. GPT-4 achieves a Pearson correlation of $r = 0.59$ with the average annotator rating, higher than the median annotator's correlation with the average ($r=0.51$). We show that larger datasets are needed to resolve whether GPT-4 exhibits disparities in how well it correlates with demographic groups. Also, there is substantial idiosyncratic variation in correlation *within* groups, suggesting that race & gender do not fully capture differences in alignment. Finally, we find that GPT-4 cannot predict when one demographic group finds a conversation more unsafe than another.
Abstract（参考訳）: LLMは安全に対する人間の認識とどの程度一致しているか? 我々は,ユーザとチャットボットの会話の安全性に言及する際に,LLMと人間が同意する範囲について,*アノテーションアライメント*を用いて検討する。私たちは最近のDICESデータセット(Aroyo et al , 2023)を活用し、350の会話が10のレースジェンダーグループにまたがる112のアノテータによって安全のために評価される。 GPT-4は、平均アノテータのレーティングと$r = 0.59$のピアソン相関を達成し、平均 (r=0.51$) との平均アノテータの相関よりも高い。我々は、GPT-4が人口統計群とどのように相関するかの相違を示すためには、より大きなデータセットが必要であることを示した。また、**グループとの相関にはかなりの慣用的変化があり、人種と性別がアライメントの差を完全に捉えていないことを示唆している。最後に、GPT-4は、ある集団が他の集団よりも会話が安全でないと予測できないことを発見した。

関連論文リスト

Analyzing Political Bias in LLMs via Target-Oriented Sentiment Classification [4.352835414206441]
LLMによって符号化された政治的バイアスは下流のアプリケーションに有害な影響を及ぼす可能性がある。我々は,LLMの感情予測が同一文の目的語と異なるという観察を活用する新しいアプローチを提案する。我々は、人口統計学的および政治的に多様な政治家名を450の政治文に挿入し、6つの広く話される言語で7つのモデルを用いて目標志向の感情を予測する。
論文参考訳（メタデータ） (2025-05-26T10:01:24Z)
How Inclusively do LMs Perceive Social and Moral Norms? [5.302888878095751]
言語モデル(LM)は意思決定システムや対話型アシスタントとして使用される。人口集団間でLMがノルムを包括的に知覚する方法について検討する。 LM応答に顕著な相違がみられ, 若年層群, 高所得層群が近縁であった。
論文参考訳（メタデータ） (2025-02-04T20:24:17Z)
Assessing Gender Bias in LLMs: Comparing LLM Outputs with Human Perceptions and Official Statistics [0.0]
本研究では,大言語モデル(LLM)における性別バイアスについて検討する。我々は、その性別認識を、人間の回答者、米国労働統計局のデータ、および50%の非バイアスベンチマークと比較する。
論文参考訳（メタデータ） (2024-11-20T22:43:18Z)
With a Grain of SALT: Are LLMs Fair Across Social Dimensions? [3.979019316355144]
本稿では,オープンソースLarge Language Models (LLM) における様々な性別,宗教,人種間のバイアスの分析を行う。一般討論,定位討論,キャリアアドバイザ,ストーリー生成,問題解決,カバーレタライティング,CV生成という,7つのバイアストリガを用いたバイアス検出データセットを生成する手法を提案する。我々は, GPT-4o-mini を用いて各グループに関連付けられた LLM 生成テキストを匿名化し, GPT-4o-as-a-Judge を用いて相互比較を行う。
論文参考訳（メタデータ） (2024-10-16T12:22:47Z)
Style Outweighs Substance: Failure Modes of LLM Judges in Alignment Benchmarking [56.275521022148794]
ポストトレーニング法は、人間のペアワイズ選好とのより良い対応により、優れたアライメントを主張する。 LLM-judgeの好みは、アライメントのためのより具体的なメトリクスの進捗に変換されますか、そうでなければ、なぜそうでないのでしょうか? その結果,(1) LLM-judge の嗜好は,安全性,世界知識,指導の具体的な尺度と相関せず,(2) LLM-judge の暗黙バイアスが強く,事実性や安全性よりもスタイルを優先し,(3) POステージではなく,訓練後の微調整段階がアライメントに最も影響していることが判明した。
論文参考訳（メタデータ） (2024-09-23T17:58:07Z)
How Aligned are Different Alignment Metrics? [6.172390472790253]
我々はBrain-Scoreの視覚データを人間の類似性やアライメントの指標とともに分析する。ニューラルスコアと行動スコアの相互相関は非常に低く、時にはネガティブである。この結果は,統合的ベンチマークの重要性を浮き彫りにしているだけでなく,個々のメトリクスを正しく組み合わせて集約する方法に関する疑問も提起している。
論文参考訳（メタデータ） (2024-07-10T10:36:11Z)
PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [14.530969790956242]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。 SafeRLHF と BeaverTails の兄弟プロジェクトとして,質問応答ペアに対する有用性と無害性のアノテーションを分離する。全体として、44.6kの精巧なプロンプトと、265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文参考訳（メタデータ） (2024-06-20T18:37:36Z)
WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文参考訳（メタデータ） (2024-06-19T20:13:42Z)
Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文参考訳（メタデータ） (2024-03-17T07:08:55Z)
Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。 GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。嗜好に基づく評価は意図的に操作可能であることを示す。
論文参考訳（メタデータ） (2024-02-17T14:34:31Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
A Closer Look into Automatic Evaluation Using Large Language Models [75.49360351036773]
評価プロセスの細部が、LLMが与える評価と人間の評価との相関性をどのように変化させるかについて議論する。 G-Evalで使用されるAuto Chain-of-Thought (CoT)は、必ずしもG-Evalを人間の評価に適合させるものではない。また、LLMにG-Evalのように、数値評価のみを出力させることが、最適以下であることも示している。
論文参考訳（メタデータ） (2023-10-09T12:12:55Z)
Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか? LLMの事実知識を評価する統計的手法であるKaRRを提案する。この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文参考訳（メタデータ） (2023-05-17T18:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。