論文の概要: The Benefits of a Concise Chain of Thought on Problem-Solving in Large
Language Models
- arxiv url: http://arxiv.org/abs/2401.05618v1
- Date: Thu, 11 Jan 2024 01:52:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 01:46:10.936956
- Title: The Benefits of a Concise Chain of Thought on Problem-Solving in Large
Language Models
- Title(参考訳): 大規模言語モデルの問題解決における簡潔な思考連鎖の効果
- Authors: Matthew Renze and Erhan Guven
- Abstract要約: CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。
全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce Concise Chain-of-Thought (CCoT) prompting. We
compared standard CoT and CCoT prompts to see how conciseness impacts response
length and correct-answer accuracy. We evaluated this using GPT-3.5 and GPT-4
with a multiple-choice question-and-answer (MCQA) benchmark. CCoT reduced
average response length by 48.70% for both GPT-3.5 and GPT-4 while having a
negligible impact on problem-solving performance. However, on math problems,
GPT-3.5 with CCoT incurs a performance penalty of 27.69%. Overall, CCoT leads
to an average per-token cost reduction of 22.67%. These results have practical
implications for AI systems engineers using LLMs to solve real-world problems
with CoT prompt-engineering techniques. In addition, these results provide more
general insight for AI researchers studying the emergent behavior of
step-by-step reasoning in LLMs.
- Abstract(参考訳): 本稿では,CCoT(Concise Chain-of-Thought)プロンプトについて紹介する。
我々は、標準のCoTとCCoTのプロンプトを比較し、応答長と正解精度に精度がどう影響するかを調べた。
GPT-3.5とGPT-4をMCQAベンチマークで評価した。
CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。
しかし数学の問題では、GPT-3.5とCCoTは27.69%のペナルティを課している。
全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。
これらの結果は、LLMを用いたAIシステムエンジニアが、CoTプロンプトエンジニアリング技術を用いて現実世界の問題を解決するための実践的な意味を持つ。
さらに、これらの結果は、LLMにおけるステップバイステップ推論の創発的振る舞いを研究するAI研究者にとって、より一般的な洞察を提供する。
関連論文リスト
- Focus on Your Question! Interpreting and Mitigating Toxic CoT Problems
in Commonsense Reasoning [22.896761535855376]
大規模言語モデルは高レベルのコモンセンス推論能力を示す。
CoTライクな手法は、もともとは正しい答えが間違っていた、というかなりの数に繋がる。
帰属的追跡法と因果的追跡法を用いて,モデルの内部動作機構を探索する。
論文 参考訳(メタデータ) (2024-02-28T14:09:02Z) - Benchmarking GPT-4 on Algorithmic Problems: A Systematic Evaluation of
Prompting Strategies [51.485598133884615]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらした。
LLMは体系的な一般化を欠き、学習された統計正則をトレーニング分布の外へ外挿することができる。
本稿では,最も先進的なLCMの1つであるGPT-4の系統的なベンチマークを行う。
論文 参考訳(メタデータ) (2024-02-27T10:44:52Z) - In-Context Principle Learning from Mistakes [75.66979331850364]
Incontext Learning(ICL)は、いくつかの入力出力例から学習することで、下流タスクにLLMを適用する標準的な方法である。
我々はこのパラダイムを再考し、数少ないインプット・アウトプットの例からより多くを学ぶ。
論文 参考訳(メタデータ) (2024-02-08T04:42:29Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - Applying Large Language Models and Chain-of-Thought for Automatic
Scoring [23.076596289069506]
本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。
我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
論文 参考訳(メタデータ) (2023-11-30T21:22:43Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z) - Self-Polish: Enhance Reasoning in Large Language Models via Problem
Refinement [53.68527732113678]
本稿では,モデルの問題解決プロセスを容易にする新しい手法であるSelf-Polish(SP)を提案する。
SPは、無関係な情報を排除し、論理構造を再構成し、局所条件を新しいものに並列に整理するようにモデルに教える。
提案手法の有効性を明らかにするため,5つのベンチマークで徹底的な実験を行った。
論文 参考訳(メタデータ) (2023-05-23T19:58:30Z) - Hint of Thought prompting: an explainable and zero-shot approach to
reasoning tasks with LLMs [7.084410438286801]
本稿では、説明可能性とゼロショットの一般化を促進させる新しい思考ヒント(HoT)を提案する。
我々のHoTプロンプトは、既存のゼロショットCoTと比較してゼロショット推論タスクに大きな利点がある。
論文 参考訳(メタデータ) (2023-05-19T06:30:17Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [45.667062653613456]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z) - Optimizing Two-way Partial AUC with an End-to-end Framework [154.47590401735323]
ROC曲線のエリア(AUC)は、機械学習にとって重要な指標である。
最近の研究は、TPAUCが既存のPartial AUCメトリクスと本質的に矛盾していることを示している。
本論文では,この新指標を最適化するための最初の試行について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。