論文の概要: Instructing Large Language Models to Identify and Ignore Irrelevant Conditions
- arxiv url: http://arxiv.org/abs/2403.12744v1
- Date: Tue, 19 Mar 2024 14:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 14:03:58.996820
- Title: Instructing Large Language Models to Identify and Ignore Irrelevant Conditions
- Title(参考訳): 非関連条件の特定・特定のための大規模言語モデルの提案
- Authors: Zhenyu Wu, Chao Shen, Meng Jiang,
- Abstract要約: 数学語問題(MWP)の解法は、しばしば無関係な条件を含む与えられた問題記述に基づいて推論経路を生成する必要がある。
既存のチェーン・オブ・シント (CoT) はMWPを解くために大規模言語モデル (LLM) の多段階推論能力を引き出す手法である。
我々は,LLMに無関係な条件を識別・無視するように指示する,I$3$Cという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 37.45674126459101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Math word problem (MWP) solving requires generating a reasoning path based on a given problem description that often contains irrelevant conditions. Existing chain-of-thought (CoT) prompting methods elicited multi-step reasoning abilities of large language models (LLMs) to solve MWPs. However, they were seriously confused by the irrelevant conditions, resulting in low accuracy. In this paper, we propose a novel approach named I$^3$C that instructs LLMs to identify and ignore irrelevant conditions. It identifies a set of irrelevant condition candidates that have a weak semantic relevance with the question. Then it prompts LLMs to verify the irrelevant conditions. Lastly it instructs the LLMs with the verification on relevant and irrelevant conditions to avoid confusion and improve reasoning paths. Moreover, we propose to select (problem, reasoning paths) pairs as demonstrations to enhance I$^3$C with few-shot reasoning. We develop I$^3$C-Select that selects the most confusing problems based on the semantic relevance measurement. We conduct extensive experiments on eight MWP datasets. I$^3$C can be combined with any CoT prompting methods to improve the performance of solving MWPs. Notably, with GPT-3.5-Turbo and I$^3$C-Select, we achieve an accuracy of 96.0 and 94.1 on GSM-IC2-1K and GSM-ICM-1K, respectively, significantly outperforming the state-of-the-art few-shot prompting method Complex-CoT by +11.7 and +11.1. Our implementation is made publicly available at https://wzy6642.github.io/I3C.github.io/.
- Abstract(参考訳): 数学語問題(MWP)の解法は、しばしば無関係な条件を含む与えられた問題記述に基づいて推論経路を生成する必要がある。
既存のチェーン・オブ・シント (CoT) はMWPを解くために大規模言語モデル (LLM) の多段階推論能力を引き出す手法である。
しかし、無関係な条件にひどく混乱し、精度が低下した。
本稿では,LLMに無関係な条件を識別・無視するように指示する,I$^3$Cという新しい手法を提案する。
それは、その問題と弱い意味関係を持つ無関係な条件候補の集合を識別する。
そして、LCMに無関係な条件を検証するよう促す。
最後に、混乱を回避し、推論経路を改善するために、関連する条件と無関係条件の検証をLCMに指示する。
さらに,I$^3$C を数発の推論で拡張する実演として (確率, 推論経路) ペアを選択することを提案する。
I$^3$C-Selectを開発し、意味的関連度測定に基づいて最も紛らわしい問題を選択する。
8つのMWPデータセットについて広範な実験を行った。
I$^3$C は任意の CoT プロンプト法と組み合わせて MWP の解法の性能を向上させることができる。
特に、GPT-3.5-Turbo と I$^3$C-Select では、GSM-IC2-1K と GSM-ICM-1K でそれぞれ96.0 と 94.1 の精度を達成し、最先端のプロンプト方式である Complex-CoT を +11.7 と +11.1 で大幅に上回った。
私たちの実装はhttps://wzy6642.github.io/I3C.github.io/で公開されています。
関連論文リスト
- Just read twice: closing the recall gap for recurrent language models [41.94430033985774]
情報リコールの硬さは,集合不整合性と呼ばれる問題の硬さに還元されることを示す。
本稿では,JRT-Promptを提案する。
また、プロセスプロンプトに非因果プレフィックス-線形アテンションを使用し、99%のトランスフォーマー品質を提供するJRT-RNNを提案する。
論文 参考訳(メタデータ) (2024-07-07T19:55:09Z) - Achieving >97% on GSM8K: Deeply Understanding the Problems Makes LLMs Better Solvers for Math Word Problems [50.76385564061713]
CoT(Chain-of-Thought)のプロンプトにより、さまざまな推論タスクにわたるLLM(Large Language Models)のパフォーマンスが向上した。
CoTは通常、セマンティックな誤解エラー、計算エラー、ステップミスという3つの落とし穴に悩まされる。
意味的誤解の誤りに対処し,LLMの数学的問題解決能力を改善するために,DUP(Deeply Understanding the Problems)を提案する。
論文 参考訳(メタデータ) (2024-04-23T12:16:05Z) - Over-Reasoning and Redundant Calculation of Large Language Models [63.90357081534995]
大規模言語モデル(LLM)は、問題を段階的に解決することができる。
本稿では,手作業で構築した数学QAデータセットGSM8K-Zeroを用いて,LLMが冗長な計算と推論を生成する傾向があることを示す。
論文 参考訳(メタデータ) (2024-01-21T11:42:18Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。