論文の概要: A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models
- arxiv url: http://arxiv.org/abs/2210.12023v3
- Date: Wed, 7 Jun 2023 22:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 20:20:33.011880
- Title: A Causal Framework to Quantify the Robustness of Mathematical Reasoning
with Language Models
- Title(参考訳): 言語モデルを用いた数学的推論のロバスト性を定量化する因果関係
- Authors: Alessandro Stolfo, Zhijing Jin, Kumar Shridhar, Bernhard Sch\"olkopf
and Mrinmaya Sachan
- Abstract要約: 入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
- 参考スコア(独自算出の注目度): 81.15974174627785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We have recently witnessed a number of impressive results on hard
mathematical reasoning problems with language models. At the same time, the
robustness of these models has also been called into question; recent works
have shown that models can rely on shallow patterns in the problem description
when generating a solution. Building on the idea of behavioral testing, we
propose a novel framework, which pins down the causal effect of various factors
in the input, e.g., the surface form of the problem text, the operands, and
math operators on the output solution. By grounding the behavioral analysis in
a causal graph describing an intuitive reasoning process, we study the behavior
of language models in terms of robustness and sensitivity to direct
interventions in the input space. We apply our framework on a test bed of math
word problems. Our analysis shows that robustness does not appear to
continuously improve as a function of size, but the GPT-3 Davinci models (175B)
achieve a dramatic improvement in both robustness and sensitivity compared to
all other GPT variants.
- Abstract(参考訳): 我々は最近、言語モデルに関する厳密な数学的推論問題に関する多くの驚くべき結果を目撃した。
同時に、これらのモデルのロバスト性も疑問視され、近年の研究により、モデルが解を生成する際に問題記述の浅いパターンに依存することが示されている。
行動テストという概念に基づいて,入力における様々な要因の因果効果,例えば問題テキストの表面形式,オペランド,そして出力解の数学演算子をピン留めする新しい枠組みを提案する。
直感的な推論過程を記述した因果グラフの行動解析を基礎として,入力空間の直接的な介入に対する頑健さと感度の観点から言語モデルの振る舞いを考察する。
フレームワークを数学の単語問題のテストベッドに適用します。
しかし, GPT-3 Davinciモデル(175B)は, 他のGPTモデルと比較して, 頑健さと感度の両面で劇的な改善を実現している。
関連論文リスト
- Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems [0.0]
本研究では,数理推論タスクにおける軽量大言語モデル(LLM)の性能向上に焦点をあてる。
本稿では,数理論理の類似性を計測し,自動スクリーニング機構を設計する手法を提案する。
肯定的および否定的な例示プロンプトを慎重に作成することにより、音響推論ロジックの導入に向けてモデルを導出する。
論文 参考訳(メタデータ) (2024-08-29T08:26:42Z) - Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models [33.91763946767206]
本研究では,問題の表面形状と解答可能性との関係について,大規模言語モデルを用いて検討する。
本稿では,問題の表面形状から推論経路を多様化する自己整合的パラフレーズ(SCoP)を提案する。
論文 参考訳(メタデータ) (2024-04-17T15:53:49Z) - Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。
入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。
複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。
我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。
有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-04-29T19:10:12Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - SMART: A Situation Model for Algebra Story Problems via Attributed
Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。
提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文 参考訳(メタデータ) (2020-12-27T21:03:40Z) - CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。
本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。
本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文 参考訳(メタデータ) (2020-05-27T15:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。