論文の概要: Taken out of context: On measuring situational awareness in LLMs
- arxiv url: http://arxiv.org/abs/2309.00667v1
- Date: Fri, 1 Sep 2023 17:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:46:07.928319
- Title: Taken out of context: On measuring situational awareness in LLMs
- Title(参考訳): 文脈から考える:LLMにおける状況意識の測定について
- Authors: Lukas Berglund, Asa Cooper Stickland, Mikita Balesni, Max Kaufmann,
Meg Tong, Tomasz Korbak, Daniel Kokotajlo, Owain Evans
- Abstract要約: 大規模言語モデル(LLM)における「状況認識の出現」をよりよく理解することを目的としている。
モデルは、モデルであることを認識しているかどうかを状況的に認識し、現在テスト中なのか、デプロイ中なのかを認識できます。
- 参考スコア(独自算出の注目度): 5.615130420318795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to better understand the emergence of `situational awareness' in large
language models (LLMs). A model is situationally aware if it's aware that it's
a model and can recognize whether it's currently in testing or deployment.
Today's LLMs are tested for safety and alignment before they are deployed. An
LLM could exploit situational awareness to achieve a high score on safety
tests, while taking harmful actions after deployment. Situational awareness may
emerge unexpectedly as a byproduct of model scaling. One way to better foresee
this emergence is to run scaling experiments on abilities necessary for
situational awareness. As such an ability, we propose `out-of-context
reasoning' (in contrast to in-context learning). We study out-of-context
reasoning experimentally. First, we finetune an LLM on a description of a test
while providing no examples or demonstrations. At test time, we assess whether
the model can pass the test. To our surprise, we find that LLMs succeed on this
out-of-context reasoning task. Their success is sensitive to the training setup
and only works when we apply data augmentation. For both GPT-3 and LLaMA-1,
performance improves with model size. These findings offer a foundation for
further empirical study, towards predicting and potentially controlling the
emergence of situational awareness in LLMs. Code is available at:
https://github.com/AsaCooperStickland/situational-awareness-evals.
- Abstract(参考訳): 我々は,大規模言語モデル (LLM) における 'situational awareness' の出現をよりよく理解することを目指している。
モデルはモデルであることに気付いていて、現在テスト中なのかデプロイ中なのかを認識できます。
今日のLLMは、デプロイ前に安全性とアライメントのためにテストされています。
LLMは、状況認識を利用して、配置後の有害な行動をとりながら、安全性テストの高得点を達成することができる。
状況認識は、モデルスケーリングの副産物として予期せず現れるかもしれない。
この出現を予見する一つの方法は、状況認識に必要な能力のスケーリング実験を実行することである。
このような能力として,「文脈外推論」を提案する(文脈内学習とは対照的に)。
文脈外推論を実験的に研究する。
まず、実例やデモは提供せず、テストの記述にLLMを微調整します。
テスト時には、モデルがテストに合格できるかどうかを評価する。
驚いたことに、LLMがこのアウト・オブ・コンテクスト推論タスクに成功した。
彼らの成功はトレーニング設定に敏感で、データ拡張の適用時にのみ機能します。
GPT-3とLLaMA-1では、モデルサイズにより性能が向上した。
これらの知見は、LSMにおける状況認識の出現を予測し、潜在的に制御するための、さらなる経験的研究の基礎となる。
コードは、https://github.com/AsaCooperStickland/situational-awareness-evalsで入手できる。
関連論文リスト
- Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Output Scouting: Auditing Large Language Models for Catastrophic Responses [1.5703117863274307]
近年、Large Language Models(LLMs)の使用が個人に重大な害を与え、AI安全性への関心が高まっている。
LLMの安全性が問題となる理由の1つは、モデルが有害な出力を発生させる確率が少なくともゼロでない場合が多いことである。
本稿では,任意の確率分布に適合する任意のプロンプトに対して,意味論的に流動的なアウトプットを生成することを目的としたアウトプット・スカウトを提案する。
論文 参考訳(メタデータ) (2024-10-04T18:18:53Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs [38.86647602211699]
ChatGPTのようなAIアシスタントは、"私は大きな言語モデルです"と言うことで、ユーザに応答するように訓練されています。
一般への展開など,現在の状況に気付いていますか?
我々は、モデル自身の知識とその状況について、状況認識として言及する。
論文 参考訳(メタデータ) (2024-07-05T17:57:02Z) - A Comprehensive Evaluation on Event Reasoning of Large Language Models [68.28851233753856]
LLMが、様々な関係や推論パラダイムに基づいたイベント推論をいかにうまく達成するかは、いまだに不明である。
本稿ではEVent推論のEValuationのための新しいベンチマークEV2を紹介する。
LLMにはイベント推論を実現する能力があるが、その性能は十分ではない。
論文 参考訳(メタデータ) (2024-04-26T16:28:34Z) - Can LLMs Learn New Concepts Incrementally without Forgetting? [21.95081572612883]
大規模言語モデル(LLM)は様々なタスクで目覚ましい成功を収めていますが、それを忘れずに漸進的に学習する能力は未熟です。
概念1K(Concept-1K)は,最近出現した1023個の概念を網羅した新しいデータセットである。
概念1Kをテストベッドとして使うことで、私たちは「LLMは人間のように忘れることなく、段階的に新しい概念を学ぶことができるのか?」という疑問に答えることを目指しています。
論文 参考訳(メタデータ) (2024-02-13T15:29:50Z) - I Think, Therefore I am: Benchmarking Awareness of Large Language Models
Using AwareBench [20.909504977779978]
大規模言語モデル(LLM)における認識を評価するために設計されたベンチマークであるAwareBenchを紹介する。
LLMにおける認識は、能力、使命、感情、文化、視点の5つの次元に分類する。
13個のLLMで実施した実験の結果,その大部分は,社会的知能を十分に発揮しながら,その能力とミッションを完全に認識することに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-01-31T14:41:23Z) - She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and
Sustainable Language Models [2.6089354079273512]
最近の出来事は、従来の訓練された大規模言語モデル(LLM)に関する倫理的懸念を示している
公平で安全で堅牢なLCMの開発を促進するための一連のプロンプトを紹介します。
テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。
論文 参考訳(メタデータ) (2023-10-20T14:18:40Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。