論文の概要: Conditioning Predictive Models: Risks and Strategies
- arxiv url: http://arxiv.org/abs/2302.00805v2
- Date: Mon, 6 Feb 2023 10:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 12:57:10.404337
- Title: Conditioning Predictive Models: Risks and Strategies
- Title(参考訳): 条件付き予測モデル:リスクと戦略
- Authors: Evan Hubinger, Adam Jermyn, Johannes Treutlein, Rubi Hudson, Kate
Woolverton
- Abstract要約: 我々は、生成的/予測的モデルを安全に利用するために何が必要なのか、決定的な参照を提供する。
我々は、大きな言語モデルは世界のこのような予測モデルとして理解できると考えている。
予測モデルに対する条件付けアプローチは、人間レベルの能力を引き出す最も安全な方法であると考えている。
- 参考スコア(独自算出の注目度): 1.3124513975412255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our intention is to provide a definitive reference on what it would take to
safely make use of generative/predictive models in the absence of a solution to
the Eliciting Latent Knowledge problem. Furthermore, we believe that large
language models can be understood as such predictive models of the world, and
that such a conceptualization raises significant opportunities for their safe
yet powerful use via carefully conditioning them to predict desirable outputs.
Unfortunately, such approaches also raise a variety of potentially fatal safety
problems, particularly surrounding situations where predictive models predict
the output of other AI systems, potentially unbeknownst to us. There are
numerous potential solutions to such problems, however, primarily via carefully
conditioning models to predict the things we want (e.g. humans) rather than the
things we don't (e.g. malign AIs). Furthermore, due to the simplicity of the
prediction objective, we believe that predictive models present the easiest
inner alignment problem that we are aware of. As a result, we think that
conditioning approaches for predictive models represent the safest known way of
eliciting human-level and slightly superhuman capabilities from large language
models and other similar future models.
- Abstract(参考訳): 私たちの意図は、潜在知識問題を引き起こす解決策がなければ、生成的/予測的モデルを安全に利用するために何が必要か、決定的な基準を提供することです。
さらに,大規模言語モデルが世界の予測モデルとして理解され,その概念化は,望ましいアウトプットを予測するよう慎重に条件づけることで,安全かつ強力な利用のための重要な機会をもたらすと信じている。
残念なことに、このようなアプローチはさまざまな致命的な安全性問題を引き起こします。特に、予測モデルが他のaiシステムのアウトプットを予測している状況です。
しかし、特に、我々が望むもの(例えば、人間)を予測するために慎重に調整するモデルによって、我々が望まないもの(例えば、悪質なai)よりも多くの潜在的な解決策が存在する。
さらに、予測対象の単純さから、予測モデルは我々が認識している最も簡単な内部アライメント問題を示すと信じている。
その結果、予測モデルに対する条件付けアプローチは、大きな言語モデルや他の類似した将来モデルから人間レベルとわずかに超人的能力を引き出す最も安全な方法であると考えている。
関連論文リスト
- Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Human Trajectory Forecasting with Explainable Behavioral Uncertainty [63.62824628085961]
人間の軌道予測は人間の行動を理解し予測し、社会ロボットから自動運転車への応用を可能にする。
モデルフリー手法は予測精度が優れているが説明可能性に欠ける一方、モデルベース手法は説明可能性を提供するが、よく予測できない。
BNSP-SFMは,11種類の最先端手法と比較して,予測精度を最大50%向上することを示す。
論文 参考訳(メタデータ) (2023-07-04T16:45:21Z) - Using Models Based on Cognitive Theory to Predict Human Behavior in
Traffic: A Case Study [4.705182901389292]
本研究では,ギャップ受容シナリオにおける人間の行動予測のための認知的確証のある新しいモデルの有用性について検討する。
我々は、このモデルが確立されたデータ駆動予測モデルと競合したり、さらに優れていることを示す。
論文 参考訳(メタデータ) (2023-05-24T14:27:00Z) - A roadmap to fair and trustworthy prediction model validation in
healthcare [2.476158303361112]
予測モデルは、開発データを超えて一般化すれば最も有用である。
本稿では,信頼性,公正,信頼性の高い人工知能予測モデルの開発と適用を促進するロードマップを提案する。
論文 参考訳(メタデータ) (2023-04-07T04:24:19Z) - Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction [63.3021778885906]
3Dバウンディングボックスは、多くのコンピュータビジョンアプリケーションで広く使われている中間表現である。
本稿では,自己回帰モデルを利用して高い信頼度予測と意味のある不確実性対策を行う手法を提案する。
我々はシミュレーションデータセットであるCOB-3Dをリリースし、現実世界のロボティクスアプリケーションで発生する新しいタイプのあいまいさを強調します。
論文 参考訳(メタデータ) (2022-10-13T23:57:40Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Predictability and Surprise in Large Generative Models [8.055204456718576]
大規模プレトレーニングは、有能で汎用的な生成モデルを作成するための技術として登場した。
本稿では,そのようなモデルの直観的特性を強調し,この特性の政策的含意について論じる。
論文 参考訳(メタデータ) (2022-02-15T23:21:23Z) - Beyond Average Performance -- exploring regions of deviating performance
for black box classification models [0.0]
ブラックボックス分類モデルの予測性能を解釈可能な記述に利用できる2つのアプローチについて述べる。
これらのアプローチは、モデルが平均的な振る舞いから著しく逸脱するパフォーマンスを期待する、解釈可能な方法で発見し、記述する手段を提供するため、非常に実践的な関連性がある。
論文 参考訳(メタデータ) (2021-09-16T20:46:52Z) - Probabilistic Human Motion Prediction via A Bayesian Neural Network [71.16277790708529]
本稿では,人間の動作予測のための確率モデルを提案する。
我々のモデルは、観測された動きシーケンスが与えられたときに、いくつかの将来の動きを生成することができる。
我々は、大規模ベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2021-07-14T09:05:33Z) - Robustness of Model Predictions under Extension [3.766702945560518]
分析にモデルを使うのに注意すべき点は、予測因果効果と条件独立性はモデル拡張の下では堅牢でないことである。
定性モデル予測のロバスト性を効率的に評価するために,因果順序付け手法の使い方を示す。
平衡の力学系では、新しい洞察が適切なモデル拡張を選択するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-08T20:21:03Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。