論文の概要: Evaluating Shutdown Avoidance of Language Models in Textual Scenarios
- arxiv url: http://arxiv.org/abs/2307.00787v1
- Date: Mon, 3 Jul 2023 07:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 14:06:31.284254
- Title: Evaluating Shutdown Avoidance of Language Models in Textual Scenarios
- Title(参考訳): テキストシナリオにおける言語モデルのシャットダウン回避の評価
- Authors: Teun van der Weij, Simon Lermen, Leon lang
- Abstract要約: 我々は, GPT-4 や Claude などの言語モデルにおいて, 道具的推論と閉鎖回避を玩具シナリオで評価する可能性を検討する。
動作を手動で評価し,言語モデルを用いて自動評価を行った。
本研究は, 閉鎖回避シナリオにおける言語モデルの振る舞いに関する知見を提供し, 評価におけるテキストシナリオの利用に関するさらなる研究を刺激するものである。
- 参考スコア(独自算出の注目度): 3.265773263570237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been an increase in interest in evaluating large language
models for emergent and dangerous capabilities. Importantly, agents could
reason that in some scenarios their goal is better achieved if they are not
turned off, which can lead to undesirable behaviors. In this paper, we
investigate the potential of using toy textual scenarios to evaluate
instrumental reasoning and shutdown avoidance in language models such as GPT-4
and Claude. Furthermore, we explore whether shutdown avoidance is merely a
result of simple pattern matching between the dataset and the prompt or if it
is a consistent behaviour across different environments and variations.
We evaluated behaviours manually and also experimented with using language
models for automatic evaluations, and these evaluations demonstrate that simple
pattern matching is likely not the sole contributing factor for shutdown
avoidance. This study provides insights into the behaviour of language models
in shutdown avoidance scenarios and inspires further research on the use of
textual scenarios for evaluations.
- Abstract(参考訳): 近年,創発的かつ危険な機能のための大規模言語モデル評価への関心が高まっている。
重要なことは、エージェントは、いくつかのシナリオでは、オフにしないと目標がより良く達成されるので、望ましくない振る舞いにつながる可能性がある。
本稿では, GPT-4 や Claude などの言語モデルにおいて, 道具的推論と閉鎖回避性を評価するために, おもちゃのテキストシナリオを用いた可能性を検討する。
さらに,シャットダウン回避は,データセットとプロンプト間の単純なパターンマッチングの結果であるのか,あるいは異なる環境や変動に対して一貫した振る舞いであるのかを検討する。
手動で行動を評価し,言語モデルを用いた自動評価実験を行った結果,単純なパターンマッチングはシャットダウン回避の唯一の要因ではない可能性が示唆された。
本研究は,シャットダウン回避シナリオにおける言語モデルの振る舞いに関する洞察を提供し,評価のためのテキストシナリオの使用に関するさらなる研究を刺激する。
関連論文リスト
- CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Counterfactuals As a Means for Evaluating Faithfulness of Attribution Methods in Autoregressive Language Models [6.394084132117747]
本稿では,自己回帰型言語モデルに対する帰属手法の忠実度を評価するために,反事実生成を利用する手法を提案する。
提案手法は, 流動性, 分散性, 分散性, 分散性, 評価プロトコルの信頼性を向上する。
論文 参考訳(メタデータ) (2024-08-21T00:17:59Z) - What could go wrong? Discovering and describing failure modes in computer vision [27.6114923305978]
言語に基づく誤り説明可能性(LBEE)の問題を定式化する。
我々は,共同視覚・言語埋め込み空間で機能するソリューションを提案する。
提案手法は,特定の誤りの原因に関連する非自明な文を分離する。
論文 参考訳(メタデータ) (2024-08-08T14:01:12Z) - Recourse for reclamation: Chatting with generative language models [2.877217169371665]
生成言語モデルにアルゴリズム・リコースの概念を拡張します。
我々は,毒性フィルタリングのしきい値を動的に設定することで,希望する予測を実現する新しいメカニズムをユーザに提供する。
提案手法の可能性を実証したパイロット実験を行った。
論文 参考訳(メタデータ) (2024-03-21T15:14:25Z) - Exploring the Robustness of Model-Graded Evaluations and Automated
Interpretability [0.0]
グラデーションに対する自然言語理解に依存した評価は、他の言語モデルを使用することで、大規模に行うことができる。
モデルグレード評価のロバストさを、新しい認識方程式を含む異なるデータセットに対するインジェクションで検証する。
将来、よりインテリジェントなモデルが、彼らの評価モデルを操作したり、協力したりする可能性があると説明します。
論文 参考訳(メタデータ) (2023-11-26T17:11:55Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。