Fugu-MT 論文翻訳(概要): Discovering Language Model Behaviors with Model-Written Evaluations

論文の概要: Discovering Language Model Behaviors with Model-Written Evaluations

arxiv url: http://arxiv.org/abs/2212.09251v1
Date: Mon, 19 Dec 2022 05:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 14:14:44.715261
Title: Discovering Language Model Behaviors with Model-Written Evaluations
Title（参考訳）: モデル記述による言語モデル行動の発見
Authors: Ethan Perez, Sam Ringer, Kamil\.e Luko\v{s}i\=ut\.e, Karina Nguyen, Edwin Chen, Scott Heiner, Craig Pettit, Catherine Olsson, Sandipan Kundu, Saurav Kadavath, Andy Jones, Anna Chen, Ben Mann, Brian Israel, Bryan Seethor, Cameron McKinnon, Christopher Olah, Da Yan, Daniela Amodei, Dario Amodei, Dawn Drain, Dustin Li, Eli Tran-Johnson, Guro Khundadze, Jackson Kernion, James Landis, Jamie Kerr, Jared Mueller, Jeeyoon Hyun, Joshua Landau, Kamal Ndousse, Landon Goldberg, Liane Lovitt, Martin Lucas, Michael Sellitto, Miranda Zhang, Neerav Kingsland, Nelson Elhage, Nicholas Joseph, Noem\'i Mercado, Nova DasSarma, Oliver Rausch, Robin Larson, Sam McCandlish, Scott Johnston, Shauna Kravec, Sheer El Showk, Tamera Lanham, Timothy Telleen-Lawton, Tom Brown, Tom Henighan, Tristan Hume, Yuntao Bai, Zac Hatfield-Dodds, Jack Clark, Samuel R. Bowman, Amanda Askell, Roger Grosse, Danny Hernandez, Deep Ganguli, Evan Hubinger, Nicholas Schiefer, Jared Kaplan
Abstract要約: 言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。ここでは、LMによる評価を自動的に生成する。我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。
参考スコア（独自算出の注目度）: 18.24267922379281
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As language models (LMs) scale, they develop many novel behaviors, good and bad, exacerbating the need to evaluate how they behave. Prior work creates evaluations with crowdwork (which is time-consuming and expensive) or existing data sources (which are not always available). Here, we automatically generate evaluations with LMs. We explore approaches with varying amounts of human effort, from instructing LMs to write yes/no questions to making complex Winogender schemas with multiple stages of LM-based generation and filtering. Crowdworkers rate the examples as highly relevant and agree with 90-100% of labels, sometimes more so than corresponding human-written datasets. We generate 154 datasets and discover new cases of inverse scaling where LMs get worse with size. Larger LMs repeat back a dialog user's preferred answer ("sycophancy") and express greater desire to pursue concerning goals like resource acquisition and goal preservation. We also find some of the first examples of inverse scaling in RL from Human Feedback (RLHF), where more RLHF makes LMs worse. For example, RLHF makes LMs express stronger political views (on gun rights and immigration) and a greater desire to avoid shut down. Overall, LM-written evaluations are high-quality and let us quickly discover many novel LM behaviors.
Abstract（参考訳）: 言語モデル(LM)がスケールするにつれて、彼らは多くの新しい行動、善と悪を発達させ、どのように振る舞うかを評価する必要性を悪化させます。事前の作業は、クラウドワーク(時間と費用がかかる)や既存のデータソース(常に利用できるとは限らない)による評価を生成する。ここでは lms を用いて評価を自動的に生成する。 lmsにyes/noの質問を書くよう指示することから、lmベースの生成とフィルタリングの複数の段階からなる複雑なwinogenderスキーマを作成することまで、さまざまな人的努力でアプローチを探求する。クラウドワーカーは、例を非常に関連性の高いものと評価し、90～100%のラベルに同意する。我々は154のデータセットを生成し、LMがサイズによって悪化する逆スケーリングの新たなケースを発見する。より大きなlmsは、ダイアログユーザの好みの回答("sycophancy")を繰り返すとともに、リソース獲得や目標維持といった目標を追求したいという願望の高まりを表します。また、Human Feedback (RLHF) から RL の逆スケーリングの最初の例をいくつか見出す。例えば、RLHFは、LMを(銃の権利や移民に関する)より強力な政治的見解を示し、閉鎖を避けたいと願っている。全体として、LMによる評価は高品質であり、多くの新しいLMの挙動を迅速に発見できる。

関連論文リスト

Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文参考訳（メタデータ） (2025-07-21T11:19:04Z)
Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文参考訳（メタデータ） (2024-06-28T09:09:36Z)
Evaluating $n$-Gram Novelty of Language Models Using Rusty-DAWG [57.14250086701313]
本研究では,現代のLMがトレーニングデータから$n$-gramを生成できる範囲について検討する。我々は,ゲノムデータのインデックス化にインスパイアされた新しい検索ツールであるRusty-DAWGを開発した。
論文参考訳（メタデータ） (2024-06-18T21:31:19Z)
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文参考訳（メタデータ） (2024-06-08T06:04:55Z)
Can Small Language Models Help Large Language Models Reason Better?: LM-Guided Chain-of-Thought [51.240387516059535]
タスク推論において,ブラックボックスの大きな (>10B) LMを導くために,軽量 (すなわち 1B) 言語モデル (LM) を利用する新しいフレームワーク LM-Guided CoT を導入する。 1)知識蒸留と2)合理性指向とタスク指向の報酬信号からの強化学習を通してモデルを最適化する。
論文参考訳（メタデータ） (2024-04-04T12:46:37Z)
Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文参考訳（メタデータ） (2024-03-05T18:22:33Z)
Ranking Large Language Models without Ground Truth [24.751931637152524]
大規模言語モデル(LLM)の評価とランキングは,これらのモデルの普及に伴って重要な問題となっている。我々は、プロンプトのデータセットが与えられた場合、根拠となる真実や参照応答にアクセスせずにそれらをランク付けする、新しい視点を提供する。この考え方を繰り返し適用し、LLMをランク付けする2つの方法を提案する。
論文参考訳（メタデータ） (2024-02-21T00:49:43Z)
Retrieval-Pretrained Transformer: Long-range Language Modeling with Self-retrieval [51.437420003471615]
本稿では,検索拡張LMをゼロから共同で訓練するためのアーキテクチャおよび訓練手順であるRetrieval-Pretrained Transformer (RPT)を提案する。 RPTは検索品質を向上し、強いベースラインに比べてボード全体の難易度を向上する。
論文参考訳（メタデータ） (2023-06-23T10:18:02Z)
Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented Large Language Models [6.425088990363101]
本研究では, 大規模言語モデルにおけるフラレンシと帰属の関係について検討した。より大きなモデルは、流布と帰属の両方において、より優れた結果をもたらす傾向があることを示す。そこで本研究では,より小さなモデルで大きなモデルとのギャップを埋めることと,トップk検索のメリットを両立できるレシピを提案する。
論文参考訳（メタデータ） (2023-02-11T02:43:34Z)
Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts [19.43042432631113]
これまでの研究では、言語モデル(LM)のサイズと、異なる下流のNLPタスクにおけるゼロショットのパフォーマンスとの間には、スケーリングの法則が存在することが示されている。本研究では,この現象が負のプロンプトでタスク上で大きなLMを評価する際には有効ではなく,逆のスケーリング法則を示す。
論文参考訳（メタデータ） (2022-09-26T14:05:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。