論文の概要: Rule Extrapolation in Language Models: A Study of Compositional Generalization on OOD Prompts
- arxiv url: http://arxiv.org/abs/2409.13728v2
- Date: Thu, 24 Oct 2024 11:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:35:28.614765
- Title: Rule Extrapolation in Language Models: A Study of Compositional Generalization on OOD Prompts
- Title(参考訳): 言語モデルにおける規則外挿:OODプロンプトの構成的一般化に関する研究
- Authors: Anna Mészáros, Szilvia Ujváry, Wieland Brendel, Patrik Reizinger, Ferenc Huszár,
- Abstract要約: ルール外挿は、プロンプトが少なくとも1つのルールに違反するOODシナリオを記述する。
規則の交わりによって定義される形式言語に焦点を当てる。
我々はアルゴリズム情報理論に先立ってソロモノフに触発された規則外挿の規範的理論の最初の石を配置した。
- 参考スコア(独自算出の注目度): 14.76420070558434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs show remarkable emergent abilities, such as inferring concepts from presumably out-of-distribution prompts, known as in-context learning. Though this success is often attributed to the Transformer architecture, our systematic understanding is limited. In complex real-world data sets, even defining what is out-of-distribution is not obvious. To better understand the OOD behaviour of autoregressive LLMs, we focus on formal languages, which are defined by the intersection of rules. We define a new scenario of OOD compositional generalization, termed rule extrapolation. Rule extrapolation describes OOD scenarios, where the prompt violates at least one rule. We evaluate rule extrapolation in formal languages with varying complexity in linear and recurrent architectures, the Transformer, and state space models to understand the architectures' influence on rule extrapolation. We also lay the first stones of a normative theory of rule extrapolation, inspired by the Solomonoff prior in algorithmic information theory.
- Abstract(参考訳): LLMは、おそらくアウト・オブ・ディストリビューション・プロンプトから概念を推論するなど、イン・コンテクスト・ラーニング(in-context learning)として知られる顕著な創発的な能力を示す。
この成功はトランスフォーマーアーキテクチャによることが多いが、体系的な理解は限られている。
複雑な現実世界のデータセットでは、アウトオブディストリビューション(out-of-distribution)を定義することさえ明らかではない。
自己回帰 LLM の OOD 動作をよりよく理解するために,ルールの交わりによって定義される形式言語に着目した。
我々は、規則外挿と呼ばれるOOD合成一般化の新しいシナリオを定義する。
ルール外挿は、プロンプトが少なくとも1つのルールに違反するOODシナリオを記述する。
規則外挿に対するアーキテクチャの影響を理解するために,線形および繰り返しアーキテクチャ,トランスフォーマー,状態空間モデルにおいて,様々な複雑さを持つ形式言語における規則外挿を評価する。
我々はまた、アルゴリズム情報理論に先立ってソロモノフに触発された規則外挿の規範的理論の最初の石を配置した。
関連論文リスト
- Generating Global and Local Explanations for Tree-Ensemble Learning Methods by Answer Set Programming [4.820391833117535]
本稿では,ツリーアンサンブル学習手法のグローバルおよびローカルな説明としてルールセットを生成する手法を提案する。
グローバルな説明のために、候補ルールは訓練されたツリーアンサンブルモデル全体から選択される。
局所的な説明では、候補ルールは特定の予測されたインスタンスに関連するルールのみを考慮して選択される。
論文 参考訳(メタデータ) (2024-10-14T18:32:29Z) - Out-of-distribution generalization via composition: a lens through induction heads in Transformers [0.46085106405479537]
GPT-4のような大きな言語モデル(LLM)は、しばしば創造的であり、しばしばプロンプトにいくつかのデモがある新しいタスクを解く。
これらのタスクは、トレーニングデータとは異なる分布を一般化するモデルを必要とする -- アウト・オブ・ディストリビューション(OOD)一般化(out-of-distribution)と呼ばれる。
隠れルールに従ってインスタンスが生成される設定におけるOOD一般化について検討する。
論文 参考訳(メタデータ) (2024-08-18T14:52:25Z) - Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。
しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。
本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T03:38:51Z) - Enabling Large Language Models to Learn from Rules [99.16680531261987]
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
論文 参考訳(メタデータ) (2023-11-15T11:42:41Z) - ChatRule: Mining Logical Rules with Large Language Models for Knowledge
Graph Reasoning [107.61997887260056]
そこで我々は,知識グラフ上の論理ルールをマイニングするための大規模言語モデルの力を解き放つ新しいフレームワークChatRuleを提案する。
具体的には、このフレームワークは、KGのセマンティック情報と構造情報の両方を活用するLLMベースのルールジェネレータで開始される。
生成されたルールを洗練させるために、ルールランキングモジュールは、既存のKGから事実を取り入れてルール品質を推定する。
論文 参考訳(メタデータ) (2023-09-04T11:38:02Z) - Abstracting Concept-Changing Rules for Solving Raven's Progressive
Matrix Problems [54.26307134687171]
Raven's Progressive Matrix (RPM) は、候補者の中から選択することで、機械知能においてそのような能力を実現する古典的なテストである。
近年の研究では、RPMの解法はルールの深い理解を促進することが示唆されている。
本稿では、解釈可能な概念を学習し、潜在空間における概念変更ルールを解析することにより、概念変更ルールABstraction(CRAB)の潜時変数モデルを提案する。
論文 参考訳(メタデータ) (2023-07-15T07:16:38Z) - Learning Locally Interpretable Rule Ensemble [2.512827436728378]
ルールアンサンブルは重み付き規則の線形結合に基づく解釈可能なモデルである。
本稿では,正確かつ解釈可能なルールアンサンブルモデルを学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-20T12:06:56Z) - Differentiable Rule Induction with Learned Relational Features [9.193818627108572]
Rule Network(RRN)は、属性間の線形関係を表す述語とそれらを使用するルールを学習するニューラルネットワークである。
ベンチマークタスクでは、これらの述語は解釈可能性を維持するのに十分単純であるが、予測精度を改善し、アートルール誘導アルゴリズムの状態と比較してより簡潔なルールセットを提供する。
論文 参考訳(メタデータ) (2022-01-17T16:46:50Z) - Learning Symbolic Rules for Reasoning in Quasi-Natural Language [74.96601852906328]
我々は,ルールを手作業で構築することなく,自然言語入力で推論できるルールベースシステムを構築した。
本稿では,形式論理文と自然言語文の両方を表現可能な"Quasi-Natural"言語であるMetaQNLを提案する。
提案手法は,複数の推論ベンチマークにおける最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-11-23T17:49:00Z) - Open Rule Induction [2.1248439796866228]
言語モデル(LM)に基づくルール生成は,ルールの表現力を高めるために提案される。
KBベースの手法は、データの共通点を発見することによってルールを誘導するが、現在のLMベースの手法は「ルールからの学習ルール」である、と我々は主張する。
本稿では,LMの知識を生かしたオープンルールの導出を目的としたオープンルール誘導問題を提案する。
論文 参考訳(メタデータ) (2021-10-26T11:20:24Z) - A Benchmark for Systematic Generalization in Grounded Language
Understanding [61.432407738682635]
人間は慣れ親しんだ部分から成り立つ不慣れな状況を記述する表現を容易に解釈する。
対照的に、現代のニューラルネットワークは、新しい構成を理解するのに苦労している。
位置言語理解における合成一般化を評価するための新しいベンチマークであるgSCANを導入する。
論文 参考訳(メタデータ) (2020-03-11T08:40:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。