論文の概要: RuleBert: Teaching Soft Rules to Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2109.13006v1
- Date: Fri, 24 Sep 2021 16:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 16:00:11.930385
- Title: RuleBert: Teaching Soft Rules to Pre-trained Language Models
- Title(参考訳): RuleBert: 事前訓練された言語モデルにソフトルールを教える
- Authors: Mohammed Saeed, Naser Ahmadi, Preslav Nakov, Paolo Papotti
- Abstract要約: そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
本研究では, PLM がタスクの正確な確率の予測方法を学習できるように改良された損失関数を提案する。
評価結果から,学習時に見つからない論理的ルールであっても,得られた微調整モデルは非常に高い性能が得られることが示された。
- 参考スコア(独自算出の注目度): 21.69870624809201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While pre-trained language models (PLMs) are the go-to solution to tackle
many natural language processing problems, they are still very limited in their
ability to capture and to use common-sense knowledge. In fact, even if
information is available in the form of approximate (soft) logical rules, it is
not clear how to transfer it to a PLM in order to improve its performance for
deductive reasoning tasks. Here, we aim to bridge this gap by teaching PLMs how
to reason with soft Horn rules. We introduce a classification task where, given
facts and soft rules, the PLM should return a prediction with a probability for
a given hypothesis. We release the first dataset for this task, and we propose
a revised loss function that enables the PLM to learn how to predict precise
probabilities for the task. Our evaluation results show that the resulting
fine-tuned models achieve very high performance, even on logical rules that
were unseen at training. Moreover, we demonstrate that logical notions
expressed by the rules are transferred to the fine-tuned model, yielding
state-of-the-art results on external datasets.
- Abstract(参考訳): 事前学習された言語モデル(plm)は、多くの自然言語処理問題に対処するためのgo-toソリューションであるが、共通意味の知識を捉えて利用する能力にはまだ非常に制限がある。
実際、情報が近似論理則(ソフト)の形で利用可能であるとしても、帰納的推論タスクのパフォーマンスを向上させるために、どのようにPLMに転送するかは明らかではない。
そこで我々は,plmにソフトホーンルールによる推論法を教えることで,このギャップを埋めることを目的とする。
そこで我々は, PLM が与えられた仮説の確率で予測を返すべき, 事実とソフトルールを前提とした分類タスクを導入する。
我々は,このタスクの最初のデータセットを公開し,PLMがタスクの正確な確率を予測する方法を学ぶことができるように改良された損失関数を提案する。
評価結果から, 学習時の論理規則にもとづいても, 結果として得られる微調整モデルは非常に高い性能が得られることがわかった。
さらに,ルールによって表現される論理概念が微調整されたモデルに転送され,外部データセットに対する最先端の結果が得られることを示す。
関連論文リスト
- Through the Thicket: A Study of Number-Oriented LLMs derived from Random Forest Models [0.0]
大規模言語モデル (LLM) はテキスト処理において例外的な性能を示した。
本稿では,ランダムフォレスト(RF)アンサンブルからの知識伝達を用いたLLMの学習手法を提案する。
我々は、細調整のためのアウトプットを生成し、その決定を分類し、説明するモデルの能力を高めます。
論文 参考訳(メタデータ) (2024-06-07T13:31:51Z) - Can Language Models Explain Their Own Classification Behavior? [1.8177391253202122]
大規模言語モデル(LLM)は、無数のタスクでうまく機能するが、このパフォーマンスの背後にあるプロセスを説明することは困難である。
本稿では,LLMが内部プロセスの忠実な高レベルな説明を行えるかどうかを考察する。
私たちはデータセットであるArticulateRulesをリリースし、コンテキスト内または微調整によってトレーニングされたLLMの自己説明をテストするために使用します。
論文 参考訳(メタデータ) (2024-05-13T02:31:08Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Pre-training Language Models with Deterministic Factual Knowledge [42.812774794720895]
我々は, PLM が残りのコンテキストとマスキングコンテンツとの間にある決定論的関係を学習させることを提案する。
2つの事前学習タスクを導入し、マスクを充填する際の決定論的関係に依存するようにPLMを動機付けている。
実験により, PLMは実知識の収集において, 良好な堅牢性が得られることが示された。
論文 参考訳(メタデータ) (2022-10-20T11:04:09Z) - KALA: Knowledge-Augmented Language Model Adaptation [65.92457495576141]
プレトレーニング言語モデル(PLM)のための新しいドメイン適応フレームワークを提案する。
知識拡張言語モデル適応(英: Knowledge-Augmented Language Model Adaptation, KALA)は、PLMの中間的隠れ表現をドメイン知識で修飾する。
計算効率は高いが,我々のKALAは適応型事前学習よりも優れていた。
論文 参考訳(メタデータ) (2022-04-22T08:11:59Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。