論文の概要: A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models
- arxiv url: http://arxiv.org/abs/2210.12023v1
- Date: Fri, 21 Oct 2022 15:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 13:42:04.874457
- Title: A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models
- Title(参考訳): 言語モデルを用いた数学的推論のロバスト性を定量化する因果関係
- Authors: Alessandro Stolfo, Zhijing Jin, Kumar Shridhar, Bernhard Sch\"olkopf
and Mrinmaya Sachan
- Abstract要約: 入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
分析の結果、ロバスト性はスケールの関数として継続的に改善されないことが明らかとなった。
- 参考スコア(独自算出の注目度): 81.15974174627785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We have recently witnessed a number of impressive results on hard
mathematical reasoning problems with language models. At the same time, the
robustness of these models has also been called into question; recent works
have shown that models can rely on shallow patterns in the problem description
when predicting a solution. Building on the idea of behavioral testing, we
propose a novel framework, which pins down the causal effect of various factors
in the input, e.g., the surface form of the problem text, the operands and math
operators on the output solution. By grounding the behavioral analysis in a
causal graph describing an intuitive reasoning process, we study the behavior
of language models in terms of robustness and sensitivity to direct
interventions in the input space. We apply our framework on a test bed of
bivariate math word problems. Our analysis shows that robustness does not
appear to continuously improve as a function of scale, but that the recent LLM,
GPT-3-Instruct (175B), achieves a dramatic improvement in both robustness and
sensitivity, compared to all other GPT variants.
- Abstract(参考訳): 我々は最近、言語モデルに関する厳密な数学的推論問題に関する多くの驚くべき結果を目撃した。
同時に、これらのモデルの堅牢性も疑問視され、最近の研究により、モデルはソリューションを予測する際に問題記述の浅いパターンに依存することが示されている。
行動テストの考え方に基づいて,入力中の様々な要因,例えば問題テキストの表面形式,オペランド,数学演算子の出力解に対する因果効果をピン留めする新しい枠組みを提案する。
直感的な推論過程を記述した因果グラフの行動解析を基礎として,入力空間の直接的な介入に対する頑健さと感度の観点から言語モデルの振る舞いを考察する。
このフレームワークを二変量数ワード問題のテストベッドに適用する。
解析の結果,ロバスト性はスケールの関数として連続的に改善されないが,最近のLCMであるGPT-3-Instruct (175B)は,他のすべてのGPT変種と比較して,ロバスト性と感度の両方において劇的な改善を達成していることがわかった。
関連論文リスト
- Multi-Set Inoculation: Assessing Model Robustness Across Multiple
Challenge Sets [48.94926373895036]
本稿では,入力摂動が異なるスケールの言語モデルに与える影響を研究する枠組みを提案する。
一方の摂動への曝露が他の摂動に対するモデルの性能を向上させるか、劣化させるかを検討する。
提案手法は,与えられたデータセットの精度を損なうことなく,異なる摂動に頑健にモデルを訓練することを示す。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - Do Language Models Learn Semantics of Code? A Case Study in
Vulnerability Detection [7.725755567907359]
我々は,解釈可能性ツール,注意分析,相互作用行列解析という3つの異なる手法を用いてモデルを解析する。
モデル入力内のバグセマンティクスをハイライトする2つのアノテーション手法を開発した。
この結果から,より複雑なパスベースのバグセマンティクスを学習する上で,モデルにバグセマンティクスの情報を提供し,モデルがそれに参加することができることを示唆した。
論文 参考訳(メタデータ) (2023-11-07T16:31:56Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Case-Based Reasoning with Language Models for Classification of Logical
Fallacies [3.511369967593153]
本稿では,論理的誤りの新たな事例を分類するケースベース推論手法を提案する。
本実験は,ケースベース推論が言語モデルの精度と一般化性を向上させることを示唆している。
論文 参考訳(メタデータ) (2023-01-27T17:49:16Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。
本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。
本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文 参考訳(メタデータ) (2020-05-27T15:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。