Fugu-MT 論文翻訳(概要): Over-Reasoning and Redundant Calculation of Large Language Models

論文の概要: Over-Reasoning and Redundant Calculation of Large Language Models

arxiv url: http://arxiv.org/abs/2401.11467v1
Date: Sun, 21 Jan 2024 11:42:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 16:21:17.827310
Title: Over-Reasoning and Redundant Calculation of Large Language Models
Title（参考訳）: 大規模言語モデルの過剰推論と冗長計算
Authors: Cheng-Han Chiang, Hung-yi Lee
Abstract要約: 大規模言語モデル(LLM)は、問題を段階的に解決することができる。本稿では,手作業で構築した数学QAデータセットGSM8K-Zeroを用いて,LLMが冗長な計算と推論を生成する傾向があることを示す。
参考スコア（独自算出の注目度）: 75.49360351036773
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) can solve problems step-by-step. While this chain-of-thought (CoT) reasoning boosts LLMs' performance, it is unclear if LLMs \textit{know} when to use CoT and whether those CoT are always necessary to answer the question. This paper shows that LLMs tend to generate redundant calculations and reasoning on a manually constructed math QA dataset, GSM8K-Zero. GSM8K-Zero is constructed such that the questions can be answered without any calculations, but LLMs, including Llama-2 models and Claude-2, tend to generate lengthy and unnecessary calculations to answer the questions. We also conduct experiments to explain why LLMs generate redundant calculations and reasonings. GSM8K-Zero is publicly available at https://github.com/d223302/Over-Reasoning-of-LLMs and https://huggingface.co/datasets/dcml0714/GSM8K-Zero.
Abstract（参考訳）: 大規模言語モデル(LLM)は段階的に問題を解決することができる。このチェーン・オブ・シンクレット(CoT)推論はLLMのパフォーマンスを高めるが、LLMs \textit{know}がいつCoTを使うか、そしてそれらのCoTが常に質問に答える必要があるかどうかは不明である。本稿では,手動で構築した算数qaデータセットgsm8k-zero上で,llmが冗長な計算と推論を行う傾向を示す。 GSM8K-Zeroは、質問を計算せずに答えられるように構成されているが、Llama-2モデルやClaude-2を含むLLMは、質問に答えるために長く不必要な計算を生成する傾向がある。 LLMがなぜ冗長な計算や推論を生成するのかを説明する実験も行います。 GSM8K-Zeroはhttps://github.com/d223302/Over-Reasoning-of-LLMsとhttps://huggingface.co/datasets/dcml0714/GSM8K-Zeroで公開されている。

関連論文リスト

Counting Hypothesis: Potential Mechanism of In-Context Learning [0.4583541422554718]
In-Context Learning (ICL) は、大量のデータに事前訓練された大規模言語モデル(LLM)が入力プロンプトの例から特定のタスクを学習できることを示している。 ICLのカウント仮説について提案し,LSMの符号化戦略がICLを弱体化させる可能性が示唆された。
論文参考訳（メタデータ） (2026-02-02T05:57:33Z)
Pay for Hints, Not Answers: LLM Shepherding for Cost-Efficient Inference [7.865726406769634]
小型言語モデル(SLM)は劇的なコスト削減を提供するが、精度はかなり遅い。 LLM Shepherdingは,LLMから短いプレフィックス(ヒント)のみを要求するフレームワークで,SLMに提供します。シェパードはルーティングとカスケードの両方を一般化し、オラクルの意思決定において低コストを実現する。
論文参考訳（メタデータ） (2026-01-29T18:52:54Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
GSM-Infinite: How Do Your LLMs Behave over Infinitely Increasing Context Length and Reasoning Complexity? [37.399561533852506]
微粒化制御下での難易度と文脈長を無限に低減した算術問題を生成することができる小学校数学問題生成装置を開発した。複雑性が増大するにつれて、推論性能が一貫したシグマノイドの低下と、体系的な推論スケーリングの傾向が見られます。
論文参考訳（メタデータ） (2025-02-07T17:05:25Z)
Critical Questions Generation: Motivation and Challenges [6.0158981171030685]
本稿では,議論文を処理し,それによる批判的な質問を生成する新しいタスクを提案する。議論理論において、CQは、欠落している可能性のある情報を指差して、議論の盲点を埋めるように設計されたツールである。 LLMを用いたCQs生成の研究には,大規模な実験のための参照データセットが必要である。
論文参考訳（メタデータ） (2024-10-18T09:46:38Z)
Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。既存の数式語問題に対して,それらの性能を併用して評価する。
論文参考訳（メタデータ） (2024-10-02T17:01:10Z)
GSM-Plus: A Comprehensive Benchmark for Evaluating the Robustness of LLMs as Mathematical Problem Solvers [68.77382332826167]
大規模言語モデル (LLM) は、様々な数学的推論ベンチマークで顕著な性能を達成している。 1つの必須かつ頻繁な証拠は、数学の質問がわずかに変更されたとき、LLMは誤って振る舞うことができることである。このことは, LLMの数学推論能力の頑健性を評価するために, 幅広い質問のバリエーションを試すことによるものである。
論文参考訳（メタデータ） (2024-02-29T15:26:14Z)
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs [52.42505579545893]
大規模言語モデル(LLM)は、回答とともにチェーン・オブ・シントの説明を生成するよう促されたとき、強い推論能力を示す。本稿では,LLMの推論知識と生成したCoTの精度を評価するために,新しい識別的・生成的CoT評価パラダイムを提案する。
論文参考訳（メタデータ） (2024-02-17T05:22:56Z)
CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文参考訳（メタデータ） (2023-12-07T15:12:12Z)
LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文参考訳（メタデータ） (2023-08-30T16:47:51Z)
Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。我々は,LSMの入力において,その知識を直接拡張することを提案する。我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文参考訳（メタデータ） (2023-06-07T04:15:21Z)
Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか? LLMの事実知識を評価する統計的手法であるKaRRを提案する。この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文参考訳（メタデータ） (2023-05-17T18:54:37Z)
ZEROTOP: Zero-Shot Task-Oriented Semantic Parsing using Large Language Models [6.13621607944513]
本稿では,ゼロショットタスク指向構文解析法であるZEROTOPを提案する。 MTOPデータセットの発話の16%を,注釈付きデータを必要とすることなく正確に解析できることを示す。
論文参考訳（メタデータ） (2022-12-21T07:06:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。