論文の概要: Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference
- arxiv url: http://arxiv.org/abs/2407.00075v2
- Date: Tue, 01 Oct 2024 20:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:19:18.531806
- Title: Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference
- Title(参考訳): Logicbreaks: ルールベースの推論の変換を理解するフレームワーク
- Authors: Anton Xue, Avishree Khare, Rajeev Alur, Surbhi Goel, Eric Wong,
- Abstract要約: 本研究では,大規模言語モデル (LLM) を早急に規定された規則に従う方法について検討する。
LLMはそのような規則を忠実に従えるが、悪意のあるプロンプトは理想化された理論的なモデルさえも誤解させる可能性があることを証明している。
- 参考スコア(独自算出の注目度): 20.057611113206324
- License:
- Abstract: We study how to subvert large language models (LLMs) from following prompt-specified rules. We model rule-following as inference in propositional Horn logic, a mathematical system in which rules have the form ``if $P$ and $Q$, then $R$'' for some propositions $P$, $Q$, and $R$. We prove that although LLMs can faithfully follow such rules, maliciously crafted prompts can mislead even idealized, theoretically constructed models. Empirically, we find that the reasoning behavior of LLMs aligns with that of our theoretical constructions, and popular attack algorithms find adversarial prompts with characteristics predicted by our theory. Our logic-based framework provides a novel perspective for mechanistically understanding the behavior of LLMs in rule-based settings such as jailbreak attacks.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) を早急に規定された規則に従う方法について検討する。
我々は命題Hhorn論理の推論としてルール追従をモデル化し、いくつかの命題に対して ``if $P$ と $Q$, then $R$'' という形式を持つ数学的システムである。
LLMはそのような規則を忠実に従えるが、悪意のあるプロンプトは理想化された理論的なモデルさえも誤解させる可能性があることを証明している。
実験により, LLMの推論動作は理論的構成と一致し, 一般的な攻撃アルゴリズムは我々の理論によって予測される特性と逆のプロンプトを求める。
我々の論理ベースのフレームワークは、ジェイルブレイク攻撃のようなルールベースの設定におけるLLMの振る舞いを機械的に理解するための新しい視点を提供する。
関連論文リスト
- LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Reasoning with Language Model is Planning with World Model [27.24144881796878]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMには、世界を予測するための$textitworldモデルがない。
我々は新しいLCM推論フレームワークである$underlineR$easoning vi$underlinea$$underlineP$lanning $textbf(RAP)$を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:28:28Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z) - Learning Symbolic Rules for Reasoning in Quasi-Natural Language [74.96601852906328]
我々は,ルールを手作業で構築することなく,自然言語入力で推論できるルールベースシステムを構築した。
本稿では,形式論理文と自然言語文の両方を表現可能な"Quasi-Natural"言語であるMetaQNLを提案する。
提案手法は,複数の推論ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-11-23T17:49:00Z) - RNNLogic: Learning Logic Rules for Reasoning on Knowledge Graphs [91.71504177786792]
本稿では知識グラフに基づく推論のための論理規則の学習について研究する。
論理規則は、予測に使用されるときに解釈可能な説明を提供するとともに、他のタスクに一般化することができる。
既存の手法は、検索スペースの検索の問題や、スパース報酬による非効率な最適化に悩まされている。
論文 参考訳(メタデータ) (2020-10-08T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。