論文の概要: Reasoning in Transformers - Mitigating Spurious Correlations and Reasoning Shortcuts
- arxiv url: http://arxiv.org/abs/2403.11314v1
- Date: Sun, 17 Mar 2024 19:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 17:27:03.171190
- Title: Reasoning in Transformers - Mitigating Spurious Correlations and Reasoning Shortcuts
- Title(参考訳): 変圧器の共振 -スパーラス相関と共振ショートカットの緩和-
- Authors: Daniel Enström, Viktor Kjellberg, Moa Johansson,
- Abstract要約: トランスフォーマー言語モデル(Transformer Language Model)は、自然言語に関する様々なタスクに使用されるニューラルネットワークである。
命題論理における推論を近似するために,変換器の学習範囲について検討する。
We found that SIP-BART is successfully to avoiding reasoning shortcuts, while WP-BART does not。
- 参考スコア(独自算出の注目度): 1.024113475677323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer language models are neural networks used for a wide variety of tasks concerning natural language, including some that also require logical reasoning. However, a transformer model may easily learn spurious patterns in the data, short-circuiting actual reasoning. In this paper we investigate to what extent transformers can be trained to a) approximate reasoning in propositional logic while b) avoiding known reasoning shortcuts via spurious correlations in the training data. To do so, we use a dataset with known spurious correlation between truth and e.g. the number of rules in the problem. We augment the data with proofs, and train two models: a generative transformer, WP-BART, trained on problems and their whole proofs, and a neuro-symbolic model, SIP-BART, trained on individual proof steps and combining the generative transformer model BART with a symbolic proof checker. We find that SIP-BART succeeds in avoiding reasoning shortcuts, while WP-BART does not. For SIP-BART, we then identify a few remaining reasoning errors, not previously described in the literature, arising from using a pre-trained language model. These are qualitatively analysed to create a taxonomy of four different types of additional pitfalls.
- Abstract(参考訳): トランスフォーマー言語モデル(Transformer language model)は、自然言語に関する幅広いタスクに使用されるニューラルネットワークである。
しかし、トランスモデルはデータの急激なパターンを容易に学習し、実際の推論を短時間で行うことができる。
本稿では,変圧器の訓練範囲について検討する。
a)命題論理における近似推論
ロ トレーニングデータの素早い相関による既知の推論のショートカットを回避すること。
そのために、真理と問題におけるルールの数などの相関関係が知られているデータセットを使用する。
生成型トランスフォーマーであるWP-BARTと、個々の証明ステップでトレーニングされたニューロシンボリックモデルであるSIP-BARTと、生成型トランスフォーマーモデルであるBARTをシンボル的証明チェッカーと組み合わせた2つのモデルを訓練する。
We found that SIP-BART is successfully to avoiding reasoning shortcuts, while WP-BART does not。
SIP-BARTでは、事前学習された言語モデルを用いて、文献に記載されていないいくつかの残りの推論誤差を識別する。
これらは4種類の追加の落とし穴の分類を作成するために質的に分析されている。
関連論文リスト
- Transformers in the Service of Description Logic-based Contexts [2.8210912543324658]
私たちは記述論理言語$mathcalALCQ$を使って自然言語データセットDELTA$_D$を構築します。
教師付き細調整DeBERTaモデルと2つの大言語モデル(GPT-3.5, GPT-4)の推論能力について検討した。
以上の結果から,DeBERTaをベースとしたモデルでは推論タスクをマスターすることができ,少数のサンプルが提供されてもGPTの性能は大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-11-15T13:23:24Z) - When can transformers reason with abstract symbols? [25.63285482210457]
大規模なタスク群における関係推論タスクに対して、変換器は抽象的関係を学習し、テストセットに一般化する。
これは、古典的な完全接続ネットワークとは対照的に、我々は推論を学ぶのに失敗している。
論文 参考訳(メタデータ) (2023-10-15T06:45:38Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - All Roads Lead to Rome? Exploring the Invariance of Transformers'
Representations [69.3461199976959]
本稿では, ビジェクション仮説を学習するために, 非可逆ニューラルネットワーク BERT-INN に基づくモデルを提案する。
BERT-INNの利点は理論上も広範な実験を通じても明らかである。
論文 参考訳(メタデータ) (2023-05-23T22:30:43Z) - On Robustness of Finetuned Transformer-based NLP Models [11.063628128069736]
CKAとSTIRの2つの指標を用いて、事前訓練された言語モデルと微調整された言語モデル間の変化を特徴付ける。
GPT-2表現はBERTやT5よりも複数の入力摂動に対して堅牢である。
この研究は、人気のあるTransformerベースのモデルの摂動固有の弱点に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-23T18:25:18Z) - Transformer-based approaches to Sentiment Detection [55.41644538483948]
テキスト分類のための4種類の最先端変圧器モデルの性能について検討した。
RoBERTa変換モデルは82.6%のスコアでテストデータセット上で最高のパフォーマンスを示し、品質予測に非常に推奨されている。
論文 参考訳(メタデータ) (2023-03-13T17:12:03Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Multi-Step Inference for Reasoning Over Paragraphs [95.91527524872832]
テキスト上の複雑な推論には、自由形式の述語と論理的な連結体を理解し、連鎖する必要がある。
本稿では,ニューラルネットワークを連想させる構成モデルを提案する。
論文 参考訳(メタデータ) (2020-04-06T21:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。