論文の概要: Predictability and Surprise in Large Generative Models
- arxiv url: http://arxiv.org/abs/2202.07785v2
- Date: Mon, 3 Oct 2022 21:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 14:58:11.896171
- Title: Predictability and Surprise in Large Generative Models
- Title(参考訳): 大規模生成モデルにおける予測可能性とサプライズ
- Authors: Deep Ganguli, Danny Hernandez, Liane Lovitt, Nova DasSarma, Tom
Henighan, Andy Jones, Nicholas Joseph, Jackson Kernion, Ben Mann, Amanda
Askell, Yuntao Bai, Anna Chen, Tom Conerly, Dawn Drain, Nelson Elhage, Sheer
El Showk, Stanislav Fort, Zac Hatfield-Dodds, Scott Johnston, Shauna Kravec,
Neel Nanda, Kamal Ndousse, Catherine Olsson, Daniela Amodei, Dario Amodei,
Tom Brown, Jared Kaplan, Sam McCandlish, Chris Olah, Jack Clark
- Abstract要約: 大規模プレトレーニングは、有能で汎用的な生成モデルを作成するための技術として登場した。
本稿では,そのようなモデルの直観的特性を強調し,この特性の政策的含意について論じる。
- 参考スコア(独自算出の注目度): 8.055204456718576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pre-training has recently emerged as a technique for creating
capable, general purpose, generative models such as GPT-3, Megatron-Turing NLG,
Gopher, and many others. In this paper, we highlight a counterintuitive
property of such models and discuss the policy implications of this property.
Namely, these generative models have an unusual combination of predictable loss
on a broad training distribution (as embodied in their "scaling laws"), and
unpredictable specific capabilities, inputs, and outputs. We believe that the
high-level predictability and appearance of useful capabilities drives rapid
development of such models, while the unpredictable qualities make it difficult
to anticipate the consequences of model deployment. We go through examples of
how this combination can lead to socially harmful behavior with examples from
the literature and real world observations, and we also perform two novel
experiments to illustrate our point about harms from unpredictability.
Furthermore, we analyze how these conflicting properties combine to give model
developers various motivations for deploying these models, and challenges that
can hinder deployment. We conclude with a list of possible interventions the AI
community may take to increase the chance of these models having a beneficial
impact. We intend this paper to be useful to policymakers who want to
understand and regulate AI systems, technologists who care about the potential
policy impact of their work, and academics who want to analyze, critique, and
potentially develop large generative models.
- Abstract(参考訳): 大規模プレトレーニングは, GPT-3, Megatron-Turing NLG, Gopherなどの有能で汎用的な生成モデルを作成する技術として最近登場した。
本稿では,このようなモデルの直観に反する性質に注目し,この性質の政策的意味について論じる。
すなわち、これらの生成モデルは、広範囲なトレーニング分布(スケーリング法則に具現化されているように)における予測可能な損失と予測不可能な特定の能力、入力、出力の組み合わせを持つ。
我々は、高レベルな予測可能性と有用な能力の出現が、そのようなモデルの迅速な開発を促進する一方、予測不可能な品質は、モデル展開の結果を予測するのを難しくすると考えている。
私たちは、この組み合わせが文学や実世界の観察の例を使って、いかに社会的に有害な行動に繋がるかを例示し、予測不能から害のポイントを説明するために、2つの斬新な実験も行います。
さらに、これらの相反する性質がどのように組み合わさって、モデル開発者がこれらのモデルをデプロイするためのさまざまなモチベーションと、デプロイを妨げる課題をもたらすかを分析します。
私たちは、AIコミュニティがこれらのモデルが有益な影響を与える可能性を高めるために取るべき介入の一覧で締めくくります。
この論文は、aiシステムを理解し、規制したい政策立案者、仕事の潜在的な政策への影響を気にする技術者、大規模な生成モデルを分析し、批判し、発展させたい学者に有用である。
関連論文リスト
- Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。
本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z) - Conditioning Predictive Models: Risks and Strategies [1.3124513975412255]
我々は、生成的/予測的モデルを安全に利用するために何が必要なのか、決定的な参照を提供する。
我々は、大きな言語モデルは世界のこのような予測モデルとして理解できると考えている。
予測モデルに対する条件付けアプローチは、人間レベルの能力を引き出す最も安全な方法であると考えている。
論文 参考訳(メタデータ) (2023-02-02T00:06:36Z) - ComplAI: Theory of A Unified Framework for Multi-factor Assessment of
Black-Box Supervised Machine Learning Models [6.279863832853343]
ComplAIは、説明可能性、堅牢性、パフォーマンス、公正性、モデル行動を有効にし、観察し、分析し、定量化するユニークなフレームワークである。
教師付き機械学習モデルの評価は、正しい予測を行う能力だけでなく、全体的な責任の観点から行う。
論文 参考訳(メタデータ) (2022-12-30T08:48:19Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - On the Opportunities and Risks of Foundation Models [256.61956234436553]
これらのモデルの基礎モデルは、批判的に中心的だが不完全な性格を根底から立証するものです。
本報告では,基礎モデルの可能性とリスクについて概説する。
これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文 参考訳(メタデータ) (2021-08-16T17:50:08Z) - When and How to Fool Explainable Models (and Humans) with Adversarial
Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。
まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。
次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-05T11:20:55Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Robustness of Model Predictions under Extension [3.766702945560518]
分析にモデルを使うのに注意すべき点は、予測因果効果と条件独立性はモデル拡張の下では堅牢でないことである。
定性モデル予測のロバスト性を効率的に評価するために,因果順序付け手法の使い方を示す。
平衡の力学系では、新しい洞察が適切なモデル拡張を選択するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-08T20:21:03Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。