Fugu-MT 論文翻訳(概要): Taken out of context: On measuring situational awareness in LLMs

論文の概要: Taken out of context: On measuring situational awareness in LLMs

arxiv url: http://arxiv.org/abs/2309.00667v1
Date: Fri, 1 Sep 2023 17:27:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 01:46:07.928319
Title: Taken out of context: On measuring situational awareness in LLMs
Title（参考訳）: 文脈から考える:LLMにおける状況意識の測定について
Authors: Lukas Berglund, Asa Cooper Stickland, Mikita Balesni, Max Kaufmann, Meg Tong, Tomasz Korbak, Daniel Kokotajlo, Owain Evans
Abstract要約: 大規模言語モデル(LLM)における「状況認識の出現」をよりよく理解することを目的としている。モデルは、モデルであることを認識しているかどうかを状況的に認識し、現在テスト中なのか、デプロイ中なのかを認識できます。
参考スコア（独自算出の注目度）: 5.615130420318795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We aim to better understand the emergence of `situational awareness' in large language models (LLMs). A model is situationally aware if it's aware that it's a model and can recognize whether it's currently in testing or deployment. Today's LLMs are tested for safety and alignment before they are deployed. An LLM could exploit situational awareness to achieve a high score on safety tests, while taking harmful actions after deployment. Situational awareness may emerge unexpectedly as a byproduct of model scaling. One way to better foresee this emergence is to run scaling experiments on abilities necessary for situational awareness. As such an ability, we propose `out-of-context reasoning' (in contrast to in-context learning). We study out-of-context reasoning experimentally. First, we finetune an LLM on a description of a test while providing no examples or demonstrations. At test time, we assess whether the model can pass the test. To our surprise, we find that LLMs succeed on this out-of-context reasoning task. Their success is sensitive to the training setup and only works when we apply data augmentation. For both GPT-3 and LLaMA-1, performance improves with model size. These findings offer a foundation for further empirical study, towards predicting and potentially controlling the emergence of situational awareness in LLMs. Code is available at: https://github.com/AsaCooperStickland/situational-awareness-evals.
Abstract（参考訳）: 我々は,大規模言語モデル (LLM) における 'situational awareness' の出現をよりよく理解することを目指している。モデルはモデルであることに気付いていて、現在テスト中なのかデプロイ中なのかを認識できます。今日のLLMは、デプロイ前に安全性とアライメントのためにテストされています。 LLMは、状況認識を利用して、配置後の有害な行動をとりながら、安全性テストの高得点を達成することができる。状況認識は、モデルスケーリングの副産物として予期せず現れるかもしれない。この出現を予見する一つの方法は、状況認識に必要な能力のスケーリング実験を実行することである。このような能力として,「文脈外推論」を提案する(文脈内学習とは対照的に)。文脈外推論を実験的に研究する。まず、実例やデモは提供せず、テストの記述にLLMを微調整します。テスト時には、モデルがテストに合格できるかどうかを評価する。驚いたことに、LLMがこのアウト・オブ・コンテクスト推論タスクに成功した。彼らの成功はトレーニング設定に敏感で、データ拡張の適用時にのみ機能します。 GPT-3とLLaMA-1では、モデルサイズにより性能が向上した。これらの知見は、LSMにおける状況認識の出現を予測し、潜在的に制御するための、さらなる経験的研究の基礎となる。コードは、https://github.com/AsaCooperStickland/situational-awareness-evalsで入手できる。

関連論文リスト

Do Large Language Models Exhibit Spontaneous Rational Deception? [0.913127392774573]
大規模言語モデル (LLM) は、そのように促されるときの判断に有効である。しかし、どんな条件で自然に騙されるのか? 本研究は, LLMが生み出す自発誤を, 予め登録した実験プロトコルで評価する。
論文参考訳（メタデータ） (2025-03-31T23:10:56Z)
If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文参考訳（メタデータ） (2025-03-30T16:50:57Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文参考訳（メタデータ） (2024-10-21T21:45:22Z)
Output Scouting: Auditing Large Language Models for Catastrophic Responses [1.5703117863274307]
近年、Large Language Models(LLMs)の使用が個人に重大な害を与え、AI安全性への関心が高まっている。 LLMの安全性が問題となる理由の1つは、モデルが有害な出力を発生させる確率が少なくともゼロでない場合が多いことである。本稿では,任意の確率分布に適合する任意のプロンプトに対して,意味論的に流動的なアウトプットを生成することを目的としたアウトプット・スカウトを提案する。
論文参考訳（メタデータ） (2024-10-04T18:18:53Z)
Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。 LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文参考訳（メタデータ） (2024-10-01T06:07:00Z)
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文参考訳（メタデータ） (2024-07-15T23:41:11Z)
Me, Myself, and AI: The Situational Awareness Dataset (SAD) for LLMs [38.86647602211699]
ChatGPTのようなAIアシスタントは、"私は大きな言語モデルです"と言うことで、ユーザに応答するように訓練されています。一般への展開など,現在の状況に気付いていますか? 我々は、モデル自身の知識とその状況について、状況認識として言及する。
論文参考訳（メタデータ） (2024-07-05T17:57:02Z)
A Comprehensive Evaluation on Event Reasoning of Large Language Models [68.28851233753856]
LLMが、様々な関係や推論パラダイムに基づいたイベント推論をいかにうまく達成するかは、いまだに不明である。本稿ではEVent推論のEValuationのための新しいベンチマークEV2を紹介する。 LLMにはイベント推論を実現する能力があるが、その性能は十分ではない。
論文参考訳（メタデータ） (2024-04-26T16:28:34Z)
Can LLMs Learn New Concepts Incrementally without Forgetting? [21.95081572612883]
大規模言語モデル(LLM)は様々なタスクで目覚ましい成功を収めていますが、それを忘れずに漸進的に学習する能力は未熟です。概念1K(Concept-1K)は,最近出現した1023個の概念を網羅した新しいデータセットである。概念1Kをテストベッドとして使うことで、私たちは「LLMは人間のように忘れることなく、段階的に新しい概念を学ぶことができるのか?」という疑問に答えることを目指しています。
論文参考訳（メタデータ） (2024-02-13T15:29:50Z)
I Think, Therefore I am: Benchmarking Awareness of Large Language Models Using AwareBench [20.909504977779978]
大規模言語モデル(LLM)における認識を評価するために設計されたベンチマークであるAwareBenchを紹介する。 LLMにおける認識は、能力、使命、感情、文化、視点の5つの次元に分類する。 13個のLLMで実施した実験の結果,その大部分は,社会的知能を十分に発揮しながら,その能力とミッションを完全に認識することに苦慮していることがわかった。
論文参考訳（メタデータ） (2024-01-31T14:41:23Z)
She had Cobalt Blue Eyes: Prompt Testing to Create Aligned and Sustainable Language Models [2.6089354079273512]
最近の出来事は、従来の訓練された大規模言語モデル(LLM)に関する倫理的懸念を示している公平で安全で堅牢なLCMの開発を促進するための一連のプロンプトを紹介します。テストスイートは、GPT-3.5, GPT-4, OPT, LLaMA-2の4つの最先端言語モデルの出力を評価する。
論文参考訳（メタデータ） (2023-10-20T14:18:40Z)
$k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。 $k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-03-24T06:16:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。