Fugu-MT 論文翻訳(概要): A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models

論文の概要: A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models

arxiv url: http://arxiv.org/abs/2210.12023v1
Date: Fri, 21 Oct 2022 15:12:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-24 13:42:04.874457
Title: A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models
Title（参考訳）: 言語モデルを用いた数学的推論のロバスト性を定量化する因果関係
Authors: Alessandro Stolfo, Zhijing Jin, Kumar Shridhar, Bernhard Sch\"olkopf and Mrinmaya Sachan
Abstract要約: 入力空間における直接的介入に対する頑健さと感度の観点から言語モデルの振舞いについて検討する。分析の結果、ロバスト性はスケールの関数として継続的に改善されないことが明らかとなった。
参考スコア（独自算出の注目度）: 81.15974174627785
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We have recently witnessed a number of impressive results on hard mathematical reasoning problems with language models. At the same time, the robustness of these models has also been called into question; recent works have shown that models can rely on shallow patterns in the problem description when predicting a solution. Building on the idea of behavioral testing, we propose a novel framework, which pins down the causal effect of various factors in the input, e.g., the surface form of the problem text, the operands and math operators on the output solution. By grounding the behavioral analysis in a causal graph describing an intuitive reasoning process, we study the behavior of language models in terms of robustness and sensitivity to direct interventions in the input space. We apply our framework on a test bed of bivariate math word problems. Our analysis shows that robustness does not appear to continuously improve as a function of scale, but that the recent LLM, GPT-3-Instruct (175B), achieves a dramatic improvement in both robustness and sensitivity, compared to all other GPT variants.
Abstract（参考訳）: 我々は最近、言語モデルに関する厳密な数学的推論問題に関する多くの驚くべき結果を目撃した。同時に、これらのモデルの堅牢性も疑問視され、最近の研究により、モデルはソリューションを予測する際に問題記述の浅いパターンに依存することが示されている。行動テストの考え方に基づいて,入力中の様々な要因,例えば問題テキストの表面形式,オペランド,数学演算子の出力解に対する因果効果をピン留めする新しい枠組みを提案する。直感的な推論過程を記述した因果グラフの行動解析を基礎として,入力空間の直接的な介入に対する頑健さと感度の観点から言語モデルの振る舞いを考察する。このフレームワークを二変量数ワード問題のテストベッドに適用する。解析の結果,ロバスト性はスケールの関数として連続的に改善されないが,最近のLCMであるGPT-3-Instruct (175B)は,他のすべてのGPT変種と比較して,ロバスト性と感度の両方において劇的な改善を達成していることがわかった。

関連論文リスト

Fluid Representations in Reasoning Models [91.77876704697779]
本稿では,QwQ-32Bの抽象構造情報処理のメカニズム解析を行う。その結果、QwQ-32Bは、推論中の行動や概念の内部表現を徐々に改善することがわかった。
論文参考訳（メタデータ） (2026-02-04T18:34:50Z)
Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文参考訳（メタデータ） (2025-05-17T00:31:39Z)
LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation [1.2576388595811496]
本稿では,モデル性能推定における暗記の影響を低減する言語推論問題を生成するための枠組みを提案する。このフレームワークを言語推論のための挑戦的なベンチマークであるlingOLY-TOOの開発に適用する。
論文参考訳（メタデータ） (2025-03-04T19:57:47Z)
Examining False Positives under Inference Scaling for Mathematical Reasoning [59.19191774050967]
本稿では,言語モデルにおける数学的問題解決における偽陽性解の有効性を体系的に検討する。擬陽性が言語モデルの推論時間スケーリング行動にどのように影響するかを考察する。
論文参考訳（メタデータ） (2025-02-10T07:49:35Z)
Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems [0.0]
本研究では,数理推論タスクにおける軽量大言語モデル(LLM)の性能向上に焦点をあてる。本稿では,数理論理の類似性を計測し,自動スクリーニング機構を設計する手法を提案する。肯定的および否定的な例示プロンプトを慎重に作成することにより、音響推論ロジックの導入に向けてモデルを導出する。
論文参考訳（メタデータ） (2024-08-29T08:26:42Z)
Paraphrase and Solve: Exploring and Exploiting the Impact of Surface Form on Mathematical Reasoning in Large Language Models [33.91763946767206]
本研究では,問題の表面形状と解答可能性との関係について,大規模言語モデルを用いて検討する。本稿では,問題の表面形状から推論経路を多様化する自己整合的パラフレーズ(SCoP)を提案する。
論文参考訳（メタデータ） (2024-04-17T15:53:49Z)
Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-15T02:59:10Z)
Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文参考訳（メタデータ） (2023-10-03T00:57:26Z)
Generative Models as a Complex Systems Science: How can we make sense of large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文参考訳（メタデータ） (2023-07-31T22:58:41Z)
Opening the Black Box: Analyzing Attention Weights and Hidden States in Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文参考訳（メタデータ） (2023-06-21T11:48:07Z)
Logically Consistent Adversarial Attacks for Soft Theorem Provers [110.17147570572939]
本稿では,言語モデルの推論能力の探索と改善のための生成的逆説フレームワークを提案する。我々のフレームワークは、敵の攻撃をうまく発生させ、グローバルな弱点を識別する。有効探索に加えて, 生成したサンプルのトレーニングにより, 対象モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2022-04-29T19:10:12Z)
Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文参考訳（メタデータ） (2022-01-28T02:33:07Z)
SMART: A Situation Model for Algebra Story Problems via Attributed Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文参考訳（メタデータ） (2020-12-27T21:03:40Z)
CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文参考訳（メタデータ） (2020-05-27T15:06:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。