論文の概要: The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models
- arxiv url: http://arxiv.org/abs/2401.05618v3
- Date: Sat, 19 Oct 2024 19:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 17:02:05.945840
- Title: The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models
- Title(参考訳): 大規模言語モデルにおける問題解決に関する簡潔なチェーンの効果
- Authors: Matthew Renze, Erhan Guven,
- Abstract要約: CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。
数学の問題では、GPT-3.5とCCoTは27.69%のペナルティを課している。
全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we introduce Concise Chain-of-Thought (CCoT) prompting. We compared standard CoT and CCoT prompts to see how conciseness impacts response length and correct-answer accuracy. We evaluated this using GPT-3.5 and GPT-4 with a multiple-choice question-and-answer (MCQA) benchmark. CCoT reduced average response length by 48.70% for both GPT-3.5 and GPT-4 while having a negligible impact on problem-solving performance. However, on math problems, GPT-3.5 with CCoT incurs a performance penalty of 27.69%. Overall, CCoT leads to an average per-token cost reduction of 22.67%. All code, data, and supplemental materials are available on GitHub at https://github.com/matthewrenze/jhu-concise-cot
- Abstract(参考訳): 本稿では,CCoT(Concise Chain-of-Thought)プロンプトについて紹介する。
我々は、標準のCoTとCCoTのプロンプトを比較して、応答長と正解精度に精度がどう影響するかを調べた。
GPT-3.5とGPT-4をMCQA(Multi-choice Question-and-Awer)ベンチマークで評価した。
CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。
しかし数学の問題では、GPT-3.5とCCoTは27.69%のペナルティを課している。
全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。
すべてのコード、データ、補足資料はGitHubでhttps://github.com/matthewrenze/jhu-concise-cotで公開されている。
関連論文リスト
- Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。
テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。
解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-06T04:41:13Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval [36.445443789036226]
一般的な検索と参照のパラダイムは、高速なバイエンコーダ(BE)を使用して、幅広い集合から関連する候補を検索することである。
本稿では,クエリと類似候補の複数の埋め込みを,浅い自己認識層を通じて比較する比較多重候補フレームワークを提案する。
ZeSHELデータセットの実験結果は、バイエンコーダとクロスエンコーダをシームレスな中間リランカとして接続した場合、MCCはリコール@kを効果的に改善できることを示した。
論文 参考訳(メタデータ) (2024-05-21T13:51:48Z) - Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。
局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。
当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文 参考訳(メタデータ) (2024-04-12T21:35:21Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - Applying Large Language Models and Chain-of-Thought for Automatic
Scoring [23.076596289069506]
本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。
我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
論文 参考訳(メタデータ) (2023-11-30T21:22:43Z) - Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese
Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。
中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。
本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文 参考訳(メタデータ) (2023-11-14T14:56:33Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文 参考訳(メタデータ) (2023-01-31T03:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。