論文の概要: Measuring Progress on Scalable Oversight for Large Language Models
- arxiv url: http://arxiv.org/abs/2211.03540v1
- Date: Fri, 4 Nov 2022 17:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:44:11.882132
- Title: Measuring Progress on Scalable Oversight for Large Language Models
- Title(参考訳): 大規模言語モデルのスケーラビリティ監視の進展測定
- Authors: Samuel R. Bowman, Jeeyoon Hyun, Ethan Perez, Edwin Chen, Craig Pettit,
Scott Heiner, Kamile Lukosuite, Amanda Askell, Andy Jones, Anna Chen, Anna
Goldie, Azalia Mirhoseini, Cameron McKinnon, Christopher Olah, Daniela
Amodei, Dario Amodei, Dawn Drain, Dustin Li, Eli Tran-Johnson, Jackson
Kernion, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal
Ndousse, Liane Lovitt, Nelson Elhage, Nicholas Schiefer, Nicholas Joseph,
Noem\'i Mercado, Nova DasSarma, Robin Larson, Sam McCandlish, Sandipan Kundu,
Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Timothy
Telleen-Lawton, Tom Brown, Tom Henighan, Tristan Hume, Yuntao Bai, Zac
Hatfield-Dodds, Ben Mann, Jared Kaplan
- Abstract要約: 我々は、人間専門家が成功するが、人間や現在の汎用AIシステムが失敗するタスクを選択することに焦点を当てた実験的な設計を提案する。
チャットを通じて信頼できない大言語モデルダイアログアシスタントと対話する人間の参加者は、モデル単独と自明なパフォーマンスの両方を大幅に上回っていることがわかった。
- 参考スコア(独自算出の注目度): 19.705153174673576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing safe and useful general-purpose AI systems will require us to make
progress on scalable oversight: the problem of supervising systems that
potentially outperform us on most skills relevant to the task at hand.
Empirical work on this problem is not straightforward, since we do not yet have
systems that broadly exceed our abilities. This paper discusses one of the
major ways we think about this problem, with a focus on how to turn it into one
that can be productively studied empirically. We first present an experimental
design centered on choosing tasks for which human specialists succeed but
unaided humans and current general AI systems fail. We then present a
proof-of-concept experiment following meant to demonstrate a key feature of
this experimental design and show its viability with two question-answering
tasks: MMLU and time-limited QuALITY. On these tasks, we find that human
participants who interact with an unreliable large-language-model dialog
assistant through chat -- a trivial baseline strategy for scalable oversight --
substantially outperform both the model alone and their own unaided
performance. These results are an encouraging sign that scalable oversight will
be tractable to study with present models and bolster recent findings that
large language models can productively assist humans with difficult tasks.
- Abstract(参考訳): 安全で有用な汎用AIシステムを開発するためには、スケーラブルな監視を前進させる必要があります。
この問題に関する実証的な研究は、我々の能力を超えるシステムを持っていないため、簡単ではない。
本稿は, この問題を実証的に研究可能なものにする方法に着目し, この問題に対する考え方の1つについて論じる。
まず、人間専門家が成功するが、人間や現在の汎用AIシステムが失敗するタスクを選択することに焦点を当てた実験的な設計を提案する。
次に、この実験設計の重要な特徴を実証し、2つの質問応答タスク(MMLUと時間制限Qualities)でその実現可能性を示すための概念実証実験を示す。
これらのタスクにおいて、チャットを通じて信頼できない大言語モデルダイアログアシスタントと対話する人間の参加者は、スケーラブルな監視のための自明なベースライン戦略である。
これらの結果は、スケーラブルな監視が現在のモデルで研究し、大きな言語モデルが困難なタスクで人間を生産的に支援できるという最近の知見を裏付けるものである。
関連論文リスト
- Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey [59.23394353614928]
近年、事前訓練されたモデルが台頭し、視覚言語タスクの研究が進められている。
事前訓練されたモデルの強力な能力に触発されて、古典的な課題を解決するために新しいパラダイムが登場した。
論文 参考訳(メタデータ) (2024-12-11T07:29:04Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Predicting and Understanding Human Action Decisions: Insights from Large Language Models and Cognitive Instance-Based Learning [0.0]
大きな言語モデル(LLM)は、様々なタスクにまたがってその能力を実証している。
本稿では,LLMの推論と生成能力を利用して,2つの逐次意思決定タスクにおける人間の行動を予測する。
我々は,LLMの性能を,人間の経験的意思決定を模倣した認知的インスタンスベース学習モデルと比較した。
論文 参考訳(メタデータ) (2024-07-12T14:13:06Z) - Solving the Right Problem is Key for Translational NLP: A Case Study in
UMLS Vocabulary Insertion [12.855898113768998]
UMLSに数十万の新しい用語が加えられる重要な実世界の課題であるUMLS語彙挿入の事例について検討する。
現実世界のタスクを反映したUMLS語彙挿入の新しい定式化を導入する。
また、重要な新しいモデル行動を可能にする効果的なルール強化バイオメディカル言語モデルを提案する。
論文 参考訳(メタデータ) (2023-11-25T19:35:53Z) - Can Foundation Models Watch, Talk and Guide You Step by Step to Make a
Cake? [62.59699229202307]
AIの進歩にもかかわらず、インタラクティブなタスクガイダンスシステムの開発は依然として大きな課題である。
我々は、人間のユーザと人間のインストラクターとの自然なインタラクションに基づいて、新しいマルチモーダルベンチマークデータセット、ウォッチ、トーク、ガイド(WTaG)を作成しました。
いくつかの基礎モデルを活用して、これらのモデルが認識可能なタスクガイダンスに迅速に適応できるかを調査した。
論文 参考訳(メタデータ) (2023-11-01T15:13:49Z) - Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for
Instruction Generation Models [5.975913042883176]
最近の研究は、人間のために設計された心理学的テストを通して言語モデルの認知能力を研究する。
我々は、言語モデルがタスクを実行するために利用する人間のような認知能力であるタスク指向認知能力を定式化する。
論文 参考訳(メタデータ) (2022-12-21T04:43:19Z) - Watch-And-Help: A Challenge for Social Perception and Human-AI
Collaboration [116.28433607265573]
我々は、AIエージェントでソーシャルインテリジェンスをテストするための課題であるWatch-And-Help(WAH)を紹介する。
WAHでは、AIエージェントは、人間のようなエージェントが複雑な家庭用タスクを効率的に実行するのを助ける必要がある。
マルチエージェントの家庭環境であるVirtualHome-Socialを構築し、計画と学習ベースのベースラインを含むベンチマークを提供する。
論文 参考訳(メタデータ) (2020-10-19T21:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。