論文の概要: Can LLMs Follow Simple Rules?
- arxiv url: http://arxiv.org/abs/2311.04235v3
- Date: Fri, 8 Mar 2024 17:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 10:55:59.269659
- Title: Can LLMs Follow Simple Rules?
- Title(参考訳): LLMは単純なルールに従うことができるか?
- Authors: Norman Mu, Sarah Chen, Zifan Wang, Sizhe Chen, David Karamardian,
Lulwa Aljeraisy, Basel Alomair, Dan Hendrycks, David Wagner
- Abstract要約: ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
- 参考スコア(独自算出の注目度): 28.73820874333199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are deployed with increasing real-world
responsibilities, it is important to be able to specify and constrain the
behavior of these systems in a reliable manner. Model developers may wish to
set explicit rules for the model, such as "do not generate abusive content",
but these may be circumvented by jailbreaking techniques. Existing evaluations
of adversarial attacks and defenses on LLMs generally require either expensive
manual review or unreliable heuristic checks. To address this issue, we propose
Rule-following Language Evaluation Scenarios (RuLES), a programmatic framework
for measuring rule-following ability in LLMs. RuLES consists of 14 simple text
scenarios in which the model is instructed to obey various rules while
interacting with the user. Each scenario has a programmatic evaluation function
to determine whether the model has broken any rules in a conversation. Our
evaluations of proprietary and open models show that almost all current models
struggle to follow scenario rules, even on straightforward test cases. We also
demonstrate that simple optimization attacks suffice to significantly increase
failure rates on test cases. We conclude by exploring two potential avenues for
improvement: test-time steering and supervised fine-tuning.
- Abstract(参考訳): LLM(Large Language Models)は,実世界の責任を増大させると同時に展開されるため,これらのシステムの振る舞いを信頼性の高い方法で特定・制約できることが重要である。
モデル開発者は、"乱用コンテンツを生成しない"など、モデルの明示的なルールを設定したがるかもしれませんが、これらはジェイルブレイクのテクニックによって回避されます。
既存のLSMに対する敵の攻撃と防御の評価には、高額な手作業によるレビューまたは信頼性の低いヒューリスティックチェックが必要である。
本稿では,llmsにおけるルール追従能力を測定するためのプログラムフレームワークであるルール追従言語評価シナリオ(rules)を提案する。
ルールは14の単純なテキストシナリオから成り、モデルがユーザと対話しながらさまざまなルールに従うように指示される。
各シナリオにはプログラムによる評価機能があり、モデルが会話におけるルールを破ったかどうかを判断する。
プロプライエタリでオープンなモデルの評価から、現在のモデルのほとんどはシナリオルールに従うのに苦労しています。
また,単純な最適化攻撃では,テストケースの障害率を大幅に向上できることを示す。
テストタイムステアリングと教師付き微調整という,改善のための潜在的な2つの道を探究する。
関連論文リスト
- Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and
Improving LLMs [95.41575344721691]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Developing a Framework for Auditing Large Language Models Using
Human-in-the-Loop [8.159685593135407]
例えば、バイアス、矛盾、幻覚などがある。
有効な方法は、同じ質問の異なるバージョンを用いてLLMを探索することである。
この監査方法を大規模に運用するには、これらのプローブを確実かつ自動的に作成するためのアプローチが必要である。
論文 参考訳(メタデータ) (2024-02-14T17:49:31Z) - BLT: Can Large Language Models Handle Basic Legal Text? [50.46167465931653]
GPT-4、Claude、PaLM 2は基本的な法的テキスト処理では性能が良くない。
これらのタスクの微調整は、テストセット上でのほぼ完全なパフォーマンスにさらに小さなモデルをもたらします。
論文 参考訳(メタデータ) (2023-11-16T09:09:22Z) - Failures Pave the Way: Enhancing Large Language Models through
Tuning-free Rule Accumulation [11.366334433990588]
大きな言語モデル(LLM)は素晴らしいパフォーマンスを示しています。
サンプル間の関係を捉えることができないため、これらの凍結LDMは必然的に同様のミスを繰り返し続ける。
我々は,従来の誤りから学習することでLCMのパフォーマンス向上を指導する,チューニング不要なルール蓄積(TRAN)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T11:40:34Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - Large Language Models can Learn Rules [111.74335251955804]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。
数値的推論問題と関係的推論問題の両方の実験は、HtTが既存のプロンプト法を改善することを示している。
学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文 参考訳(メタデータ) (2023-10-10T23:07:01Z) - Fundamental Limitations of Alignment in Large Language Models [17.588147380259635]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z) - RuleBert: Teaching Soft Rules to Pre-trained Language Models [21.69870624809201]
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
論文 参考訳(メタデータ) (2021-09-24T16:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。