Fugu-MT 論文翻訳(概要): Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions

論文の概要: Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions

arxiv url: http://arxiv.org/abs/2412.16838v1
Date: Sun, 22 Dec 2024 03:08:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:48.129268
Title: Ask-Before-Detection: Identifying and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Problem Solutions
Title（参考訳）: Ask-Before-De detect: Identification and Mitigating Conformity Bias in LLM-Powered Error Detector for Math Word Solutions
Authors: Hang Li, Tianlong Xu, Kaiqi Yang, Yucheng Chu, Yanling Chen, Yichi Song, Qingsong Wen, Hui Liu,
Abstract要約: Ask-Before-Detect (AskBD) フレームワークを導入し,大規模言語モデル(LLM)を用いて適応参照ソリューションを生成し,エラー検出を強化する。 GSM8Kの200例の実験では、AskBDがバイアスを効果的に軽減し、性能を向上させることが示されている。
参考スコア（独自算出の注目度）: 16.815772962323628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rise of large language models (LLMs) offers new opportunities for automatic error detection in education, particularly for math word problems (MWPs). While prior studies demonstrate the promise of LLMs as error detectors, they overlook the presence of multiple valid solutions for a single MWP. Our preliminary analysis reveals a significant performance gap between conventional and alternative solutions in MWPs, a phenomenon we term conformity bias in this work. To mitigate this bias, we introduce the Ask-Before-Detect (AskBD) framework, which generates adaptive reference solutions using LLMs to enhance error detection. Experiments on 200 examples of GSM8K show that AskBD effectively mitigates bias and improves performance, especially when combined with reasoning-enhancing techniques like chain-of-thought prompting.
Abstract（参考訳）: 大規模言語モデル(LLM)の台頭は、特に数学語問題(MWP)において、教育における自動エラー検出の新しい機会を提供する。以前の研究では、LLMがエラー検出器として実現可能であることが示されていたが、単一のMWPに対して複数の有効な解が存在することは見過ごされている。予備分析の結果,従来のMWPと代替ソリューションの差が顕著であることが明らかとなった。このバイアスを軽減するために,LLMを用いた適応参照ソリューションを生成するAsk-Before-Detect(AskBD)フレームワークを導入する。 GSM8Kの200例の実験では、AskBDはバイアスを効果的に軽減し、特にチェーン・オブ・シークレット・プロンプトのような推論・エンハンシング技術と組み合わせることで、パフォーマンスを向上させることが示されている。

関連論文リスト

Error Detection and Correction for Interpretable Mathematics in Large Language Models [5.258949636570995]
EDCIM (Error Detection and Correction for Interpretable Mathematics) は、解釈可能な数学タスクにおいて、これらの誤りを検出し、修正する手法である。軽量でオープンソースのLCMとより強力なプロプライエタリなモデルを統合し、コストと精度のバランスをとる。実験の結果,EDCIMは予測精度を維持しつつも,計算コストと財務コストの両方を著しく削減することがわかった。
論文参考訳（メタデータ） (2025-08-05T14:30:35Z)
Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs [61.12688072239607]
本研究は, 自己整合誤差を正式に定義し, 主流検出手法の評価を行う。 4種類の検出メソドは全て、自己整合性エラーを検出するのにかなり苦労している。自己整合性誤差がLLM間でしばしば異なるという観測結果から, 単純かつ効果的なクロスモデルプローブ法を提案する。
論文参考訳（メタデータ） (2025-05-23T09:18:56Z)
Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review [11.856357456956351]
大規模言語モデル(LLM)は多くの領域にまたがって変換されている。不確実性定量化(英: Uncertainty Quantification, UQ)とは、不確実性の測定と、不確実性と正確性の間の不一致に対処するための校正技術である。この調査は、LCMの校正方法と関連するメトリクスをレビューする最初の専用研究である。
論文参考訳（メタデータ） (2025-04-25T13:34:40Z)
Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文参考訳（メタデータ） (2025-04-10T07:50:03Z)
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。現在のエラー分類法は静的および事前定義されたカテゴリに依存している。 MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文参考訳（メタデータ） (2025-01-26T16:17:57Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
Exposing the Achilles' Heel: Evaluating LLMs Ability to Handle Mistakes in Mathematical Reasoning [11.63133816413199]
大言語モデル (LLM) は数学語問題 (MWP) に適用されている。本稿では,ルールベース手法とより小さな言語モデルにより生成される正しい推論ステップと誤推論ステップをMWPに組み込んだ,新しいデータセットMWP-MISTAKEを提案する。 GPT-$oの誤り検出と修正における優れた性能と、より小さなモデルで直面する永続的な課題を強調した。
論文参考訳（メタデータ） (2024-06-16T08:06:05Z)
Robustness Assessment of Mathematical Reasoning in the Presence of Missing and Contradictory Conditions [48.251724997889184]
我々は、ミス・コントラクタリー条件(PMC)に関する問題というベンチマークを開発する。本稿では,これらのシナリオにおける数ショットプロンプト手法の性能を評価するための2つの新しい指標を提案する。 SMT-LIB Prompting (SLP) と呼ばれる,SMT-LIB言語を用いて直接解決する代わりに,この問題をモデル化する手法を提案する。
論文参考訳（メタデータ） (2024-06-07T16:24:12Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-03-05T07:47:34Z)
Mitigating Biases of Large Language Models in Stance Detection with Counterfactual Augmented Calibration [43.02857908228108]
大規模言語モデル (LLM) は、スタンス検出を含む様々な自然言語処理タスクにおいて顕著な進歩を示している。姿勢検出におけるそれらの性能は、データ駆動性に起因するバイアスと刺激的な相関によって制限される。本稿では,LCMの姿勢予測における潜在的なバイアスをキャリブレーションする新たなキャリブレーションネットワークであるFACTUALを提案する。
論文参考訳（メタデータ） (2024-02-22T05:17:49Z)
Noisy Exemplars Make Large Language Models More Robust: A Domain-Agnostic Behavioral Analysis [10.06218778776515]
ドメインに依存しない摂動によるマルチホップ推論タスクにおいて,大規模言語モデル(LLM)の堅牢性をテストするための体系的手法を提案する。モデルは、単語を同義語に置き換えるなど、特定の摂動に対してより敏感であることがわかった。また,プロンプトにおける摂動例の割合の増加は,数発のプロンプト手法の堅牢性を向上させることを実証した。
論文参考訳（メタデータ） (2023-11-01T03:15:05Z)
Thought Propagation: An Analogical Approach to Complex Reasoning with Large Language Models [62.96551299003463]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。 TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。 TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文参考訳（メタデータ） (2023-10-06T01:40:09Z)
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文参考訳（メタデータ） (2023-08-01T10:31:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。