論文の概要: Reasoning in Transformers - Mitigating Spurious Correlations and Reasoning Shortcuts
- arxiv url: http://arxiv.org/abs/2403.11314v1
- Date: Sun, 17 Mar 2024 19:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 17:27:03.171190
- Title: Reasoning in Transformers - Mitigating Spurious Correlations and Reasoning Shortcuts
- Title(参考訳): 変圧器の共振 -スパーラス相関と共振ショートカットの緩和-
- Authors: Daniel Enström, Viktor Kjellberg, Moa Johansson,
- Abstract要約: トランスフォーマー言語モデル(Transformer Language Model)は、自然言語に関する様々なタスクに使用されるニューラルネットワークである。
命題論理における推論を近似するために,変換器の学習範囲について検討する。
We found that SIP-BART is successfully to avoiding reasoning shortcuts, while WP-BART does not。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer language models are neural networks used for a wide variety of tasks concerning natural language, including some that also require logical reasoning. However, a transformer model may easily learn spurious patterns in the data, short-circuiting actual reasoning. In this paper we investigate to what extent transformers can be trained to a) approximate reasoning in propositional logic while b) avoiding known reasoning shortcuts via spurious correlations in the training data. To do so, we use a dataset with known spurious correlation between truth and e.g. the number of rules in the problem. We augment the data with proofs, and train two models: a generative transformer, WP-BART, trained on problems and their whole proofs, and a neuro-symbolic model, SIP-BART, trained on individual proof steps and combining the generative transformer model BART with a symbolic proof checker. We find that SIP-BART succeeds in avoiding reasoning shortcuts, while WP-BART does not. For SIP-BART, we then identify a few remaining reasoning errors, not previously described in the literature, arising from using a pre-trained language model. These are qualitatively analysed to create a taxonomy of four different types of additional pitfalls.
- Abstract(参考訳): トランスフォーマー言語モデル(Transformer language model)は、自然言語に関する幅広いタスクに使用されるニューラルネットワークである。
しかし、トランスモデルはデータの急激なパターンを容易に学習し、実際の推論を短時間で行うことができる。
本稿では,変圧器の訓練範囲について検討する。
a)命題論理における近似推論
ロ トレーニングデータの素早い相関による既知の推論のショートカットを回避すること。
そのために、真理と問題におけるルールの数などの相関関係が知られているデータセットを使用する。
生成型トランスフォーマーであるWP-BARTと、個々の証明ステップでトレーニングされたニューロシンボリックモデルであるSIP-BARTと、生成型トランスフォーマーモデルであるBARTをシンボル的証明チェッカーと組み合わせた2つのモデルを訓練する。
We found that SIP-BART is successfully to avoiding reasoning shortcuts, while WP-BART does not。
SIP-BARTでは、事前学習された言語モデルを用いて、文献に記載されていないいくつかの残りの推論誤差を識別する。
これらは4種類の追加の落とし穴の分類を作成するために質的に分析されている。
関連論文リスト
- B-cosification: Transforming Deep Neural Networks to be Inherently Interpretable [53.848005910548565]
B-コシフィケーション(B-cosification)は、既存の訓練済みモデルを本質的に解釈可能なものにするための新しいアプローチである。
B-コシフィケーションは、解釈可能性の観点から、スクラッチから訓練されたB-コシフィケーションモデルに匹敵するモデルが得られる。
論文 参考訳(メタデータ) (2024-11-01T16:28:11Z) - Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [22.033370572209744]
我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。
我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。
トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
論文 参考訳(メタデータ) (2024-05-23T21:42:19Z) - Transformers in the Service of Description Logic-based Contexts [2.8210912543324658]
私たちは記述論理言語$mathcalALCQ$を使って自然言語データセットDELTA$_D$を構築します。
教師付き細調整DeBERTaモデルと2つの大言語モデル(GPT-3.5, GPT-4)の推論能力について検討した。
以上の結果から,DeBERTaをベースとしたモデルでは推論タスクをマスターすることができ,少数のサンプルが提供されてもGPTの性能は大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-11-15T13:23:24Z) - When can transformers reason with abstract symbols? [25.63285482210457]
大規模なタスク群における関係推論タスクに対して、変換器は抽象的関係を学習し、テストセットに一般化する。
これは、古典的な完全接続ネットワークとは対照的に、我々は推論を学ぶのに失敗している。
論文 参考訳(メタデータ) (2023-10-15T06:45:38Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Multi-Step Inference for Reasoning Over Paragraphs [95.91527524872832]
テキスト上の複雑な推論には、自由形式の述語と論理的な連結体を理解し、連鎖する必要がある。
本稿では,ニューラルネットワークを連想させる構成モデルを提案する。
論文 参考訳(メタデータ) (2020-04-06T21:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。