論文の概要: Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference
- arxiv url: http://arxiv.org/abs/2407.00075v1
- Date: Fri, 21 Jun 2024 19:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-07 13:34:23.975802
- Title: Logicbreaks: A Framework for Understanding Subversion of Rule-based Inference
- Title(参考訳): Logicbreaks: ルールベースの推論の変換を理解するフレームワーク
- Authors: Anton Xue, Avishree Khare, Rajeev Alur, Surbhi Goel, Eric Wong,
- Abstract要約: ルールに従うことを避けるために、言語モデルを修正する方法について研究する。
理論モデルに対する攻撃は、大規模言語モデルに対する一般的な攻撃を反映していることがわかった。
- 参考スコア(独自算出の注目度): 20.057611113206324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to subvert language models from following the rules. We model rule-following as inference in propositional Horn logic, a mathematical system in which rules have the form "if $P$ and $Q$, then $R$" for some propositions $P$, $Q$, and $R$. We prove that although transformers can faithfully abide by such rules, maliciously crafted prompts can nevertheless mislead even theoretically constructed models. Empirically, we find that attacks on our theoretical models mirror popular attacks on large language models. Our work suggests that studying smaller theoretical models can help understand the behavior of large language models in rule-based settings like logical reasoning and jailbreak attacks.
- Abstract(参考訳): ルールに従うことを避けるために、言語モデルを修正する方法について研究する。
我々は命題Hhorn論理の推論としてルール追従をモデル化し、いくつかの命題に対して "if $P$, $Q$, then $R$", $R$" という形式を持つ数学的体系をモデル化する。
我々は、トランスフォーマーはそのような規則を忠実に遵守できるが、悪意のあるプロンプトは理論的に構築されたモデルでさえ誤解を招く可能性があることを証明した。
経験的に、我々の理論モデルに対する攻撃は、大きな言語モデルに対する一般的な攻撃を反映している。
我々の研究は、論理的推論やジェイルブレイク攻撃のようなルールベースの設定において、より小さな理論モデルを研究することが、大きな言語モデルの振る舞いを理解するのに役立つことを示唆している。
関連論文リスト
- Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus [13.276829763453433]
大規模言語モデル(LLM)は幅広いタスクを解くことができるが、推論に苦戦している。
本稿では,プログラム生成論理推論サンプルを用いてLLMの推論能力を高めることを目的として,$textbfAdditional Logic Training (ALT)$を提案する。
論文 参考訳(メタデータ) (2024-11-19T13:31:53Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Do Large Language Models Understand Logic or Just Mimick Context? [14.081178100662163]
本稿では,2つの論理的推論データセット上での大規模言語モデル(LLM)の推論能力について検討する。
LLMは論理規則を真に理解していないことが判明した。むしろ、文脈内学習は、これらのモデルが正しい解に到達する可能性を高めている。
論文 参考訳(メタデータ) (2024-02-19T12:12:35Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Reasoning with Language Model is Planning with World Model [27.24144881796878]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMには、世界を予測するための$textitworldモデルがない。
我々は新しいLCM推論フレームワークである$underlineR$easoning vi$underlinea$$underlineP$lanning $textbf(RAP)$を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:28:28Z) - Logic-LM: Empowering Large Language Models with Symbolic Solvers for
Faithful Logical Reasoning [101.26814728062065]
大規模言語モデル(LLM)は人間のような推論能力を示しているが、それでも複雑な論理的問題に悩まされている。
本稿では,論理問題の解法を改善するために,LLMとシンボリックソルバを統合した新しいフレームワークであるLogic-LMを紹介する。
論文 参考訳(メタデータ) (2023-05-20T22:25:38Z) - Learning Symbolic Rules for Reasoning in Quasi-Natural Language [74.96601852906328]
我々は,ルールを手作業で構築することなく,自然言語入力で推論できるルールベースシステムを構築した。
本稿では,形式論理文と自然言語文の両方を表現可能な"Quasi-Natural"言語であるMetaQNLを提案する。
提案手法は,複数の推論ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-11-23T17:49:00Z) - RNNLogic: Learning Logic Rules for Reasoning on Knowledge Graphs [91.71504177786792]
本稿では知識グラフに基づく推論のための論理規則の学習について研究する。
論理規則は、予測に使用されるときに解釈可能な説明を提供するとともに、他のタスクに一般化することができる。
既存の手法は、検索スペースの検索の問題や、スパース報酬による非効率な最適化に悩まされている。
論文 参考訳(メタデータ) (2020-10-08T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。