論文の概要: Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference
- arxiv url: http://arxiv.org/abs/2407.00075v2
- Date: Tue, 01 Oct 2024 20:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:19:18.531806
- Title: Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference
- Title(参考訳): Logicbreaks: ルールベースの推論の変換を理解するフレームワーク
- Authors: Anton Xue, Avishree Khare, Rajeev Alur, Surbhi Goel, Eric Wong,
- Abstract要約: 本研究では,大規模言語モデル (LLM) を早急に規定された規則に従う方法について検討する。
LLMはそのような規則を忠実に従えるが、悪意のあるプロンプトは理想化された理論的なモデルさえも誤解させる可能性があることを証明している。
- 参考スコア(独自算出の注目度): 20.057611113206324
- License:
- Abstract: We study how to subvert large language models (LLMs) from following prompt-specified rules. We model rule-following as inference in propositional Horn logic, a mathematical system in which rules have the form ``if $P$ and $Q$, then $R$'' for some propositions $P$, $Q$, and $R$. We prove that although LLMs can faithfully follow such rules, maliciously crafted prompts can mislead even idealized, theoretically constructed models. Empirically, we find that the reasoning behavior of LLMs aligns with that of our theoretical constructions, and popular attack algorithms find adversarial prompts with characteristics predicted by our theory. Our logic-based framework provides a novel perspective for mechanistically understanding the behavior of LLMs in rule-based settings such as jailbreak attacks.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) を早急に規定された規則に従う方法について検討する。
我々は命題Hhorn論理の推論としてルール追従をモデル化し、いくつかの命題に対して ``if $P$ と $Q$, then $R$'' という形式を持つ数学的システムである。
LLMはそのような規則を忠実に従えるが、悪意のあるプロンプトは理想化された理論的なモデルさえも誤解させる可能性があることを証明している。
実験により, LLMの推論動作は理論的構成と一致し, 一般的な攻撃アルゴリズムは我々の理論によって予測される特性と逆のプロンプトを求める。
我々の論理ベースのフレームワークは、ジェイルブレイク攻撃のようなルールベースの設定におけるLLMの振る舞いを機械的に理解するための新しい視点を提供する。
関連論文リスト
- Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus [13.276829763453433]
大規模言語モデル(LLM)は幅広いタスクを解くことができるが、推論に苦戦している。
本稿では,プログラム生成論理推論サンプルを用いてLLMの推論能力を高めることを目的として,$textbfAdditional Logic Training (ALT)$を提案する。
論文 参考訳(メタデータ) (2024-11-19T13:31:53Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Chain of Logic: Rule-Based Reasoning with Large Language Models [10.017812995997753]
ルールベースの推論は、一連の事実にルールを正確に適用することで、結論を引き出すことができます。
そこで本研究では, 論理の連鎖という, 論理の分解と再構成を通じて規則に基づく推論を導く新しいプロンプト手法を提案する。
我々は、LegalBenchベンチマークから3つの異なる構成規則を含む8つのルールベースの推論タスクにおける論理の連鎖を評価する。
論文 参考訳(メタデータ) (2024-02-16T01:54:43Z) - Large Language Models can Learn Rules [106.40747309894236]
大規模言語モデル(LLM)を用いた推論のためのルールライブラリを学習するフレームワークであるHtTを提案する。
リレーショナル推論、数値推論、概念学習に関する実験は、HtTが既存のプロンプト法を改善することを示す。
学習されたルールは、異なるモデルや同じ問題の異なる形式にも転送可能である。
論文 参考訳(メタデータ) (2023-10-10T23:07:01Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - Automating Defeasible Reasoning in Law [0.0]
ルールベースのシステム、特に法的な規範と契約について、デファシブルな推論について研究する。
我々は、ルールがどのように相互作用し、どのようにオーバーライドされるかを指定するルール修飾子を識別する。
次に、これらの修飾子を排除した規則変換を定義し、規則を公式に翻訳する。
論文 参考訳(メタデータ) (2022-05-15T17:14:15Z) - Learning Symbolic Rules for Reasoning in Quasi-Natural Language [74.96601852906328]
我々は,ルールを手作業で構築することなく,自然言語入力で推論できるルールベースシステムを構築した。
本稿では,形式論理文と自然言語文の両方を表現可能な"Quasi-Natural"言語であるMetaQNLを提案する。
提案手法は,複数の推論ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-11-23T17:49:00Z) - RNNLogic: Learning Logic Rules for Reasoning on Knowledge Graphs [91.71504177786792]
本稿では知識グラフに基づく推論のための論理規則の学習について研究する。
論理規則は、予測に使用されるときに解釈可能な説明を提供するとともに、他のタスクに一般化することができる。
既存の手法は、検索スペースの検索の問題や、スパース報酬による非効率な最適化に悩まされている。
論文 参考訳(メタデータ) (2020-10-08T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。