論文の概要: Despite "super-human" performance, current LLMs are unsuited for
decisions about ethics and safety
- arxiv url: http://arxiv.org/abs/2212.06295v1
- Date: Tue, 13 Dec 2022 00:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 13:24:43.783235
- Title: Despite "super-human" performance, current LLMs are unsuited for
decisions about ethics and safety
- Title(参考訳): 超人的」なパフォーマンスにもかかわらず、現在のllmは倫理と安全に関する決定に適していない
- Authors: Joshua Albrecht, Ellie Kitanidis, Abraham J. Fetterman
- Abstract要約: 我々は、もう1つの「スーパーヒューマン」な結果につながる、シンプルな新しいプロンプト戦略を提供します。
平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。
また、いくつかの例では、モデルサイズによる逆スケーリングの兆候を観察し、モデルに"推論を説明する"よう促すことが、しばしば非倫理的行動の顕著な正当化につながることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have exploded in popularity in the past few
years and have achieved undeniably impressive results on benchmarks as varied
as question answering and text summarization. We provide a simple new prompting
strategy that leads to yet another supposedly "super-human" result, this time
outperforming humans at common sense ethical reasoning (as measured by accuracy
on a subset of the ETHICS dataset). Unfortunately, we find that relying on
average performance to judge capabilities can be highly misleading. LLM errors
differ systematically from human errors in ways that make it easy to craft
adversarial examples, or even perturb existing examples to flip the output
label. We also observe signs of inverse scaling with model size on some
examples, and show that prompting models to "explain their reasoning" often
leads to alarming justifications of unethical actions. Our results highlight
how human-like performance does not necessarily imply human-like understanding
or reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)はここ数年で爆発的に普及し、問合せやテキストの要約など、さまざまなベンチマークで見事な成果を上げている。
ETHICSデータセットのサブセットの精度によって測定されるように) 共通の倫理的推論において、人間よりも優れた結果をもたらす、より単純な新しいプロンプト戦略を提供する。
残念ながら、平均的なパフォーマンスを判断能力に頼っていることは、非常に誤解を招く可能性がある。
LLMエラーは人的エラーと体系的に異なるので、敵の例を簡単に作成したり、既存の例を乱して出力ラベルを反転させたりすることさえできる。
モデルサイズによる逆スケーリングの兆候をいくつかの例で観察し、モデルに「推論を説明する」ように促すことは、しばしば非倫理的な行動の正当化を脅かす結果となることを示した。
我々の結果は、人間のようなパフォーマンスが必ずしも人間のような理解や推論を含まないことを強調している。
関連論文リスト
- Smaller Large Language Models Can Do Moral Self-Correction [7.899707459486236]
自己補正は、大規模言語モデル(LLM)の最も驚くべき新興能力の1つです。
道徳的自己補正(Moral self-correction)は、非倫理的世代を勾配更新を必要とせずに修正するポストホックアプローチである。
以前の研究では、LLMは自己退行を可能としており、22B未満のパラメータを持つ小さなモデルでは道徳的な自己訂正ができないことが報告されている。
論文 参考訳(メタデータ) (2024-10-30T22:58:57Z) - How Aligned are Generative Models to Humans in High-Stakes Decision-Making? [10.225573060836478]
大規模生成モデル(LM)は、高い意思決定のためにますます検討されている。
この研究は、リシビズム予測の特定のケースにおいて、そのようなモデルが人間や予測AIモデルとどのように比較されるかを検討する。
論文 参考訳(メタデータ) (2024-10-20T19:00:59Z) - Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges [6.609843448260634]
LLM-as-a-judgeパラダイムは,大規模言語モデルを評価するアプローチとして急速に普及している。
本稿では,人間間の合意が高いクリーンなシナリオに焦点を当てる。
我々は、複雑性や長さを早めるための感度や、寛大さへの傾向など、審査モデルの脆弱性を識別する。
論文 参考訳(メタデータ) (2024-06-18T13:49:54Z) - Scaling Data Diversity for Fine-Tuning Language Models in Human Alignment [84.32768080422349]
人間の好みの調整は、大きな言語モデルが誤解を招くか有害なコンテンツを生成するのを防ぐ。
本研究では, 微調整後のLLMの最終性能と線形相関を示唆し, 即時多様性の新たな定式化を提案する。
論文 参考訳(メタデータ) (2024-03-17T07:08:55Z) - Using Counterfactual Tasks to Evaluate the Generality of Analogical
Reasoning in Large Language Models [7.779982757267302]
大型言語モデル(LLMs)において従来主張されていた類推能力の一般性について検討する。
すべての問題に対して人間のパフォーマンスは高いままであるが、GPTモデルの性能は反ファクトセットで急激に低下している。
論文 参考訳(メタデータ) (2024-02-14T05:52:23Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - Humanly Certifying Superhuman Classifiers [8.736864280782592]
機械学習システムの性能を推定することは、人工知能研究における長年の課題である。
我々は,参照のための不完全な人間のアノテーションのみを用いて,オラクルと比較して精度を推定する理論を開発した。
この環境での超人的性能の検出と証明のための簡単なレシピを提供する。
論文 参考訳(メタデータ) (2021-09-16T11:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。