論文の概要: Over-Reasoning and Redundant Calculation of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.11467v1
- Date: Sun, 21 Jan 2024 11:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:21:17.827310
- Title: Over-Reasoning and Redundant Calculation of Large Language Models
- Title(参考訳): 大規模言語モデルの過剰推論と冗長計算
- Authors: Cheng-Han Chiang, Hung-yi Lee
- Abstract要約: 大規模言語モデル(LLM)は、問題を段階的に解決することができる。
本稿では,手作業で構築した数学QAデータセットGSM8K-Zeroを用いて,LLMが冗長な計算と推論を生成する傾向があることを示す。
- 参考スコア(独自算出の注目度): 75.49360351036773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can solve problems step-by-step. While this
chain-of-thought (CoT) reasoning boosts LLMs' performance, it is unclear if
LLMs \textit{know} when to use CoT and whether those CoT are always necessary
to answer the question. This paper shows that LLMs tend to generate redundant
calculations and reasoning on a manually constructed math QA dataset,
GSM8K-Zero. GSM8K-Zero is constructed such that the questions can be answered
without any calculations, but LLMs, including Llama-2 models and Claude-2, tend
to generate lengthy and unnecessary calculations to answer the questions. We
also conduct experiments to explain why LLMs generate redundant calculations
and reasonings. GSM8K-Zero is publicly available at
https://github.com/d223302/Over-Reasoning-of-LLMs and
https://huggingface.co/datasets/dcml0714/GSM8K-Zero.
- Abstract(参考訳): 大規模言語モデル(LLM)は段階的に問題を解決することができる。
このチェーン・オブ・シンクレット(CoT)推論はLLMのパフォーマンスを高めるが、LLMs \textit{know}がいつCoTを使うか、そしてそれらのCoTが常に質問に答える必要があるかどうかは不明である。
本稿では,手動で構築した算数qaデータセットgsm8k-zero上で,llmが冗長な計算と推論を行う傾向を示す。
GSM8K-Zeroは、質問を計算せずに答えられるように構成されているが、Llama-2モデルやClaude-2を含むLLMは、質問に答えるために長く不必要な計算を生成する傾向がある。
LLMがなぜ冗長な計算や推論を生成するのかを説明する実験も行います。
GSM8K-Zeroはhttps://github.com/d223302/Over-Reasoning-of-LLMsとhttps://huggingface.co/datasets/dcml0714/GSM8K-Zeroで公開されている。
関連論文リスト
- Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering [18.94220625114711]
大きな言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。
本稿では,LLMに基づいてKGから推論経路を選択するパイプラインを統合し,最適化する。
また,思考の連鎖(CoT)とページランクに基づく,シンプルで効果的なサブグラフ検索手法を提案する。
論文 参考訳(メタデータ) (2024-04-16T08:28:16Z) - GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of
LLMs as Mathematical Problem Solvers [73.78371810664319]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。
1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。
このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文 参考訳(メタデータ) (2024-02-29T15:26:14Z) - Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with
Knowledge Graphs [55.05394799820403]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。
本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-02-17T05:22:56Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge
Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。
我々は,LSMの入力において,その知識を直接拡張することを提案する。
我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文 参考訳(メタデータ) (2023-06-07T04:15:21Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z) - ZEROTOP: Zero-Shot Task-Oriented Semantic Parsing using Large Language
Models [6.13621607944513]
本稿では,ゼロショットタスク指向構文解析法であるZEROTOPを提案する。
MTOPデータセットの発話の16%を,注釈付きデータを必要とすることなく正確に解析できることを示す。
論文 参考訳(メタデータ) (2022-12-21T07:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。