論文の概要: Taken out of context: On measuring situational awareness in LLMs
- arxiv url: http://arxiv.org/abs/2309.00667v1
- Date: Fri, 1 Sep 2023 17:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:46:07.928319
- Title: Taken out of context: On measuring situational awareness in LLMs
- Title(参考訳): 文脈から考える:LLMにおける状況意識の測定について
- Authors: Lukas Berglund, Asa Cooper Stickland, Mikita Balesni, Max Kaufmann,
Meg Tong, Tomasz Korbak, Daniel Kokotajlo, Owain Evans
- Abstract要約: 大規模言語モデル(LLM)における「状況認識の出現」をよりよく理解することを目的としている。
モデルは、モデルであることを認識しているかどうかを状況的に認識し、現在テスト中なのか、デプロイ中なのかを認識できます。
- 参考スコア(独自算出の注目度): 5.615130420318795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to better understand the emergence of `situational awareness' in large
language models (LLMs). A model is situationally aware if it's aware that it's
a model and can recognize whether it's currently in testing or deployment.
Today's LLMs are tested for safety and alignment before they are deployed. An
LLM could exploit situational awareness to achieve a high score on safety
tests, while taking harmful actions after deployment. Situational awareness may
emerge unexpectedly as a byproduct of model scaling. One way to better foresee
this emergence is to run scaling experiments on abilities necessary for
situational awareness. As such an ability, we propose `out-of-context
reasoning' (in contrast to in-context learning). We study out-of-context
reasoning experimentally. First, we finetune an LLM on a description of a test
while providing no examples or demonstrations. At test time, we assess whether
the model can pass the test. To our surprise, we find that LLMs succeed on this
out-of-context reasoning task. Their success is sensitive to the training setup
and only works when we apply data augmentation. For both GPT-3 and LLaMA-1,
performance improves with model size. These findings offer a foundation for
further empirical study, towards predicting and potentially controlling the
emergence of situational awareness in LLMs. Code is available at:
https://github.com/AsaCooperStickland/situational-awareness-evals.
- Abstract(参考訳): 我々は,大規模言語モデル (LLM) における 'situational awareness' の出現をよりよく理解することを目指している。
モデルはモデルであることに気付いていて、現在テスト中なのかデプロイ中なのかを認識できます。
今日のLLMは、デプロイ前に安全性とアライメントのためにテストされています。
LLMは、状況認識を利用して、配置後の有害な行動をとりながら、安全性テストの高得点を達成することができる。
状況認識は、モデルスケーリングの副産物として予期せず現れるかもしれない。
この出現を予見する一つの方法は、状況認識に必要な能力のスケーリング実験を実行することである。
このような能力として,「文脈外推論」を提案する(文脈内学習とは対照的に)。
文脈外推論を実験的に研究する。
まず、実例やデモは提供せず、テストの記述にLLMを微調整します。
テスト時には、モデルがテストに合格できるかどうかを評価する。
驚いたことに、LLMがこのアウト・オブ・コンテクスト推論タスクに成功した。
彼らの成功はトレーニング設定に敏感で、データ拡張の適用時にのみ機能します。
GPT-3とLLaMA-1では、モデルサイズにより性能が向上した。
これらの知見は、LSMにおける状況認識の出現を予測し、潜在的に制御するための、さらなる経験的研究の基礎となる。
コードは、https://github.com/AsaCooperStickland/situational-awareness-evalsで入手できる。
関連論文リスト
- A Comprehensive Evaluation on Event Reasoning of Large Language Models [50.117736215593894]
LLMが、様々な関係や推論パラダイムに基づいたイベント推論をいかにうまく達成するかは、いまだに不明である。
本稿ではEVent推論のEValuationのための新しいベンチマークEV2を紹介する。
LLMにはイベント推論を実現する能力があるが、その性能は十分ではない。
論文 参考訳(メタデータ) (2024-04-26T16:28:34Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs'
Overconfidence Helps Retrieval Augmentation [72.11942617502956]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - I Think, Therefore I am: Benchmarking Awareness of Large Language Models
Using AwareBench [20.909504977779978]
大規模言語モデル(LLM)における認識を評価するために設計されたベンチマークであるAwareBenchを紹介する。
LLMにおける認識は、能力、使命、感情、文化、視点の5つの次元に分類する。
13個のLLMで実施した実験の結果,その大部分は,社会的知能を十分に発揮しながら,その能力とミッションを完全に認識することに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-01-31T14:41:23Z) - A & B == B & A: Triggering Logical Reasoning Failures in Large Language
Models [65.86149763739141]
LogicAskerはLLMの論理的推論能力を総合的に評価し改善する自動手法である。
LogicAsker は GPT-3, ChatGPT, GPT-4, Bard, Vicuna, Guanaco の6種類の LLM に対して評価を行った。
その結果、LogicAskerのテストケースは、異なるLLMで論理的推論失敗を25%から94%の確率で発見できることがわかった。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and
Sustainable Language Models [2.6089354079273512]
最近の出来事は、従来の訓練された大規模言語モデル(LLM)に関する倫理的懸念を示している
公平で安全で堅牢なLCMの開発を促進するための一連のプロンプトを紹介します。
テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。
論文 参考訳(メタデータ) (2023-10-20T14:18:40Z) - Probing the Multi-turn Planning Capabilities of LLMs via 20 Question
Games [14.063311955315077]
大規模言語モデル(LLM)は、明らかに求められている質問に答えるのに効果的である。
不明瞭なクエリに直面した場合、予測不能に動作し、誤った出力を生成することができる。
このことは、曖昧さを効果的に解決するために明確化を問うことができる知的エージェントの開発の必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-02T16:55:37Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。