論文の概要: Controlling Equational Reasoning in Large Language Models with Prompt Interventions
- arxiv url: http://arxiv.org/abs/2307.09998v4
- Date: Tue, 17 Dec 2024 06:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:54:50.227725
- Title: Controlling Equational Reasoning in Large Language Models with Prompt Interventions
- Title(参考訳): プロンプト干渉を伴う大規模言語モデルにおける等式推論の制御
- Authors: Jordan Meadows, Marco Valentino, Andre Freitas,
- Abstract要約: 本稿では,Large Language Models (LLMs) における幻覚率を,シンボルデータ生成フレームワークを用いて制御・緩和する方法について検討する。
シンボルの表面形状, 方程式木構造, 数学的文脈などの摂動的側面に対して, 対象的介入を適用する。
我々は,細調整されたT5モデル,GPTなどを含む多種多様なLSMに対する迅速な介入の効果を評価する。
- 参考スコア(独自算出の注目度): 3.9735602856280132
- License:
- Abstract: This paper investigates how hallucination rates in Large Language Models (LLMs) may be controlled and mitigated via a symbolic data generation framework, and explores a fundamental relationship between the rate of certain mathematical errors and interventions. Specifically, we systematically generate data for a derivation generation task, and apply targeted interventions on prompts to perturb aspects such as the surface forms of symbols, equational tree structures, and mathematical context, and evaluate the effect of prompt interventions across a range of LLMs including fine-tuned T5 models, GPT, and others. Experiments suggest that T5-Large can outperform the few-shot performance of GPT-4 on various evaluation sets generated via the framework, however, an extensive evaluation based on human analysis, template-based error detection, and various text generation metrics reveals fine-tuned model weaknesses beyond what the reference-based metrics singularly describe. We use these results to tie characteristic distributional footprints of interventions to the human evaluation of LLM derivation quality, potentially leading to significant control over fine-grained mathematical capabilities of language models with respect to specific types of errors.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) における幻覚率を,シンボルデータ生成フレームワークを用いて制御・緩和する方法について検討し,特定の数学的誤り率と介入率の基本的な関係について検討する。
具体的には、導出タスクのデータを体系的に生成し、シンボルの表面形状、方程式木構造、数学的文脈などの摂動面に対する目標介入を適用し、微調整されたT5モデル、GPTなどを含む様々なLSMにおける迅速な介入の効果を評価する。
実験の結果,T5-Large は,GPT-4 の様々な評価セットにおいて,GPT-4 の少数ショット性能より優れることが示されたが,人文分析,テンプレートベースのエラー検出,およびテキスト生成指標に基づく広範な評価により,参照ベースの指標が特異に記述したもの以上の細調整されたモデルの弱点が明らかとなった。
これらの結果を用いて, LLMの導出品質の人為的評価に介入の分布的フットプリントを結びつけることにより, 特定の種類の誤りに対して, 言語モデルの詳細な数学的能力を大幅に制御できる可能性が示唆された。
関連論文リスト
- Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Visual Error Patterns in Multi-Modal AI: A Statistical Approach [0.0]
MLLM(Multi-modal large language model)は、テキストと視覚データの統合に優れるが、曖昧さや不完全な視覚刺激を解釈する際に体系的な課題に直面する。
本研究では3D、回転、顔と面の欠如といった特徴を特徴とする幾何的刺激のデータセットを用いて、統計モデルを用いてこれらの誤差を駆動する要因を分析する。
論文 参考訳(メタデータ) (2024-11-27T01:20:08Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - SLEM: Machine Learning for Path Modeling and Causal Inference with Super
Learner Equation Modeling [3.988614978933934]
因果推論は科学の重要な目標であり、研究者は観測データを使って意味のある結論に達することができる。
経路モデル、構造方程式モデル(SEM)および指向非巡回グラフ(DAG)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。
本稿では,機械学習のスーパーラーナーアンサンブルを統合したパスモデリング手法であるSuper Learner Equation Modelingを提案する。
論文 参考訳(メタデータ) (2023-08-08T16:04:42Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - A Symbolic Framework for Evaluating Mathematical Reasoning and Generalisation with Transformers [17.075558137261986]
我々は変圧器の分布外数学的推論問題への一般化性を評価する。
GPT-4, GPT-3.5, 細調整BERTモデルのキャノンの比較を行った。
驚いたことに, 細調整モデルの平均分布性能がGPT-3.5を超え, ライバルのGPT-4を上回っていることが判明した。
論文 参考訳(メタデータ) (2023-05-21T20:40:37Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - GAM(e) changer or not? An evaluation of interpretable machine learning
models based on additive model constraints [5.783415024516947]
本稿では,一連の固有解釈可能な機械学習モデルについて検討する。
5つのGAMの予測特性を従来のMLモデルと比較した。
論文 参考訳(メタデータ) (2022-04-19T20:37:31Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - PermuteAttack: Counterfactual Explanation of Machine Learning Credit
Scorecards [0.0]
本稿では、金融における小売クレジットスコアリングに使用される機械学習(ML)モデルの検証と説明のための新しい方向性と方法論について述べる。
提案するフレームワークは人工知能(AI)のセキュリティと敵MLの分野からモチベーションを引き出す。
論文 参考訳(メタデータ) (2020-08-24T00:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。