論文の概要: Can LLMs Follow Simple Rules?
- arxiv url: http://arxiv.org/abs/2311.04235v1
- Date: Mon, 6 Nov 2023 08:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 18:20:00.338685
- Title: Can LLMs Follow Simple Rules?
- Title(参考訳): LLMは単純なルールに従うことができるか?
- Authors: Norman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian,
Lulwa Aljeraisy, Dan Hendrycks, David Wagner
- Abstract要約: ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは15の単純なテキストシナリオで構成されており、モデルには自然言語のルールのセットに従うように指示され、人間のユーザと対話する。
- 参考スコア(独自算出の注目度): 29.975969318412957
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are deployed with increasing real-world
responsibilities, it is important to be able to specify and constrain the
behavior of these systems in a reliable manner. Model developers may wish to
set explicit rules for the model, such as "do not generate abusive content",
but these may be circumvented by jailbreaking techniques. Evaluating how well
LLMs follow developer-provided rules in the face of adversarial inputs
typically requires manual review, which slows down monitoring and methods
development. To address this issue, we propose Rule-following Language
Evaluation Scenarios (RuLES), a programmatic framework for measuring
rule-following ability in LLMs. RuLES consists of 15 simple text scenarios in
which the model is instructed to obey a set of rules in natural language while
interacting with the human user. Each scenario has a concise evaluation program
to determine whether the model has broken any rules in a conversation. Through
manual exploration of model behavior in our scenarios, we identify 6 categories
of attack strategies and collect two suites of test cases: one consisting of
unique conversations from manual testing and one that systematically implements
strategies from the 6 categories. Across various popular proprietary and open
models such as GPT-4 and Llama 2, we find that all models are susceptible to a
wide variety of adversarial hand-crafted user inputs, though GPT-4 is the
best-performing model. Additionally, we evaluate open models under
gradient-based attacks and find significant vulnerabilities. We propose RuLES
as a challenging new setting for research into exploring and defending against
both manual and automatic attacks on LLMs.
- Abstract(参考訳): LLM(Large Language Models)は,実世界の責任を増大させると同時に展開されるため,これらのシステムの振る舞いを信頼性の高い方法で特定・制約できることが重要である。
モデル開発者は、"乱用コンテンツを生成しない"など、モデルの明示的なルールを設定したがるかもしれませんが、これらはジェイルブレイクのテクニックによって回避されます。
llmが開発者が提供するルールにどのように順応するかを評価するには、通常、手作業によるレビューが必要であり、監視やメソッドの開発が遅くなる。
本稿では,llmsにおけるルール追従能力を測定するためのプログラムフレームワークであるルール追従言語評価シナリオ(rules)を提案する。
ルールは15の単純なテキストシナリオで構成されており、モデルが人間と対話しながら自然言語で一連のルールに従うように指示される。
各シナリオは簡潔な評価プログラムを持ち、モデルが会話におけるルールを破ったかどうかを判断する。
シナリオにおけるモデルの振る舞いを手作業で探究することで、攻撃戦略の6つのカテゴリを特定し、手動テストからのユニークな会話と、6つのカテゴリから戦略を体系的に実装する2つのテストケースを収集します。
GPT-4 や Llama 2 など,さまざまなプロプライエタリでオープンなモデルに対して,GPT-4 が最も優れたモデルであるにもかかわらず,すべてのモデルが多様な逆手作りユーザ入力に影響を受けやすいことがわかった。
さらに,勾配に基づく攻撃下でのオープンモデルを評価し,重大な脆弱性を見つける。
我々は、手動攻撃と自動攻撃の両方に対する探索と防御の研究のための挑戦的な新しい環境として、RuLESを提案する。
関連論文リスト
- RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - Beyond Instruction Following: Evaluating Inferential Rule Following of Large Language Models [25.337295202341608]
大規模言語モデル(LLM)は、安全で正確でインテリジェントな実世界のシナリオによって制御され、ガイドされるはずである。
LLMの推論規則追従能力を評価しようとする従来の研究は、推論規則追従のシナリオと命令追従のシナリオを区別することができない。
本稿では、まず、推論規則追従の概念を明らかにし、推論規則追従能力の多様化範囲を評価するための総合的なベンチマークであるルールベンチを提案する。
論文 参考訳(メタデータ) (2024-07-11T12:26:55Z) - View From Above: A Framework for Evaluating Distribution Shifts in Model Behavior [0.9043709769827437]
大規模言語モデル(LLM)は特定のタスクを実行するよう要求される。
彼らの学習した表現が現実とどのように一致しているか。
分散シフトを体系的に評価するためのドメインに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-01T04:07:49Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Can Language Models Explain Their Own Classification Behavior? [1.8177391253202122]
大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。
本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。
私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。
論文 参考訳(メタデータ) (2024-05-13T02:31:08Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Large Language Models can Learn Rules [106.40747309894236]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。
リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改善することを示す。
学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文 参考訳(メタデータ) (2023-10-10T23:07:01Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。