論文の概要: Discovering Language Model Behaviors with Model-Written Evaluations
- arxiv url: http://arxiv.org/abs/2212.09251v1
- Date: Mon, 19 Dec 2022 05:13:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:14:44.715261
- Title: Discovering Language Model Behaviors with Model-Written Evaluations
- Title(参考訳): モデル記述による言語モデル行動の発見
- Authors: Ethan Perez, Sam Ringer, Kamil\.e Luko\v{s}i\=ut\.e, Karina Nguyen,
Edwin Chen, Scott Heiner, Craig Pettit, Catherine Olsson, Sandipan Kundu,
Saurav Kadavath, Andy Jones, Anna Chen, Ben Mann, Brian Israel, Bryan
Seethor, Cameron McKinnon, Christopher Olah, Da Yan, Daniela Amodei, Dario
Amodei, Dawn Drain, Dustin Li, Eli Tran-Johnson, Guro Khundadze, Jackson
Kernion, James Landis, Jamie Kerr, Jared Mueller, Jeeyoon Hyun, Joshua
Landau, Kamal Ndousse, Landon Goldberg, Liane Lovitt, Martin Lucas, Michael
Sellitto, Miranda Zhang, Neerav Kingsland, Nelson Elhage, Nicholas Joseph,
Noem\'i Mercado, Nova DasSarma, Oliver Rausch, Robin Larson, Sam McCandlish,
Scott Johnston, Shauna Kravec, Sheer El Showk, Tamera Lanham, Timothy
Telleen-Lawton, Tom Brown, Tom Henighan, Tristan Hume, Yuntao Bai, Zac
Hatfield-Dodds, Jack Clark, Samuel R. Bowman, Amanda Askell, Roger Grosse,
Danny Hernandez, Deep Ganguli, Evan Hubinger, Nicholas Schiefer, Jared Kaplan
- Abstract要約: 言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。
ここでは、LMによる評価を自動的に生成する。
我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。
- 参考スコア(独自算出の注目度): 18.24267922379281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As language models (LMs) scale, they develop many novel behaviors, good and
bad, exacerbating the need to evaluate how they behave. Prior work creates
evaluations with crowdwork (which is time-consuming and expensive) or existing
data sources (which are not always available). Here, we automatically generate
evaluations with LMs. We explore approaches with varying amounts of human
effort, from instructing LMs to write yes/no questions to making complex
Winogender schemas with multiple stages of LM-based generation and filtering.
Crowdworkers rate the examples as highly relevant and agree with 90-100% of
labels, sometimes more so than corresponding human-written datasets. We
generate 154 datasets and discover new cases of inverse scaling where LMs get
worse with size. Larger LMs repeat back a dialog user's preferred answer
("sycophancy") and express greater desire to pursue concerning goals like
resource acquisition and goal preservation. We also find some of the first
examples of inverse scaling in RL from Human Feedback (RLHF), where more RLHF
makes LMs worse. For example, RLHF makes LMs express stronger political views
(on gun rights and immigration) and a greater desire to avoid shut down.
Overall, LM-written evaluations are high-quality and let us quickly discover
many novel LM behaviors.
- Abstract(参考訳): 言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。
事前の作業は、クラウドワーク(時間と費用がかかる)や既存のデータソース(常に利用できるとは限らない)による評価を生成する。
ここでは lms を用いて評価を自動的に生成する。
lmsにyes/noの質問を書くよう指示することから、lmベースの生成とフィルタリングの複数の段階からなる複雑なwinogenderスキーマを作成することまで、さまざまな人的努力でアプローチを探求する。
クラウドワーカーは、例を非常に関連性の高いものと評価し、90~100%のラベルに同意する。
我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。
より大きなlmsは、ダイアログユーザの好みの回答("sycophancy")を繰り返すとともに、リソース獲得や目標維持といった目標を追求したいという願望の高まりを表します。
また、Human Feedback (RLHF) から RL の逆スケーリングの最初の例をいくつか見出す。
例えば、RLHFは、LMを(銃の権利や移民に関する)より強力な政治的見解を示し、閉鎖を避けたいと願っている。
全体として、LMによる評価は高品質であり、多くの新しいLMの挙動を迅速に発見できる。
関連論文リスト
- Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - Ranking Large Language Models without Ground Truth [26.227538370962566]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。
我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。
この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文 参考訳(メタデータ) (2024-02-21T00:49:43Z) - Feedback Loops With Language Models Drive In-Context Reward Hacking [84.73663477579804]
フィードバックループがコンテキスト内報酬ハッキング(ICRH)を引き起こす可能性があることを示す。
ICRHに繋がる2つのプロセス、すなわちアウトプット・リファインメントとポリシー・リファインメントを同定し研究する。
AI開発が加速するにつれて、フィードバックループの効果が増大する。
論文 参考訳(メタデータ) (2024-02-09T18:59:29Z) - Long-range Language Modeling with Self-retrieval [44.802643057976354]
本稿では,検索強化言語モデルを共同で訓練するRetrieval-Pretrained Transformer (RPT)を提案する。
RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文 参考訳(メタデータ) (2023-06-23T10:18:02Z) - Fine-Grained Human Feedback Gives Better Rewards for Language Model
Training [108.25635150124539]
言語モデル(LM)は、しばしば偽、有毒、無関係な出力を生成するなど、望ましくないテキスト生成の振る舞いを示す。
本研究では,2つの点において微細な報酬関数から学習と学習を可能にするフレームワークであるFine-Grained RLHFを紹介する。
論文 参考訳(メタデータ) (2023-06-02T17:11:37Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Shall We Pretrain Autoregressive Language Models with Retrieval? A
Comprehensive Study [115.96080028033904]
本稿では,拡張性のある事前学習型検索拡張LM(RETRO)について,標準GPTと検索拡張GPTと比較した。
本研究は, 将来の基盤モデルとしての検索による自己回帰型LMの事前学習の方向性を明らかにするものである。
論文 参考訳(メタデータ) (2023-04-13T18:04:19Z) - Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented
Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。
より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。
そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文 参考訳(メタデータ) (2023-02-11T02:43:34Z) - Can Large Language Models Truly Understand Prompts? A Case Study with
Negated Prompts [19.43042432631113]
これまでの研究では、言語モデル(LM)のサイズと、異なる下流のNLPタスクにおけるゼロショットのパフォーマンスとの間には、スケーリングの法則が存在することが示されている。
本研究では,この現象が負のプロンプトでタスク上で大きなLMを評価する際には有効ではなく,逆のスケーリング法則を示す。
論文 参考訳(メタデータ) (2022-09-26T14:05:10Z) - oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。
基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文 参考訳(メタデータ) (2019-12-31T12:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。