Fugu-MT 論文翻訳(概要): The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models

論文の概要: The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models

arxiv url: http://arxiv.org/abs/2401.05618v1
Date: Thu, 11 Jan 2024 01:52:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-13 01:46:10.936956
Title: The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models
Title（参考訳）: 大規模言語モデルの問題解決における簡潔な思考連鎖の効果
Authors: Matthew Renze and Erhan Guven
Abstract要約: CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce Concise Chain-of-Thought (CCoT) prompting. We compared standard CoT and CCoT prompts to see how conciseness impacts response length and correct-answer accuracy. We evaluated this using GPT-3.5 and GPT-4 with a multiple-choice question-and-answer (MCQA) benchmark. CCoT reduced average response length by 48.70% for both GPT-3.5 and GPT-4 while having a negligible impact on problem-solving performance. However, on math problems, GPT-3.5 with CCoT incurs a performance penalty of 27.69%. Overall, CCoT leads to an average per-token cost reduction of 22.67%. These results have practical implications for AI systems engineers using LLMs to solve real-world problems with CoT prompt-engineering techniques. In addition, these results provide more general insight for AI researchers studying the emergent behavior of step-by-step reasoning in LLMs.
Abstract（参考訳）: 本稿では,CCoT(Concise Chain-of-Thought)プロンプトについて紹介する。我々は、標準のCoTとCCoTのプロンプトを比較し、応答長と正解精度に精度がどう影響するかを調べた。 GPT-3.5とGPT-4をMCQAベンチマークで評価した。 CCoTはGPT-3.5とGPT-4の両方で平均応答長を48.70%削減した。しかし数学の問題では、GPT-3.5とCCoTは27.69%のペナルティを課している。全体として、CCoTはトーケン当たりの平均コストを22.67%削減する。これらの結果は、LLMを用いたAIシステムエンジニアが、CoTプロンプトエンジニアリング技術を用いて現実世界の問題を解決するための実践的な意味を持つ。さらに、これらの結果は、LLMにおけるステップバイステップ推論の創発的振る舞いを研究するAI研究者にとって、より一般的な洞察を提供する。

関連論文リスト

VeriThinker: Learning to Verify Makes Reasoning Model Efficient [52.74493506816969]
大型推論モデルは、Chain-of-Thought (CoT)推論を用いて複雑なタスクで優れている。過度に考える傾向は、必然的に長い推論連鎖に繋がる。我々は,CoT圧縮の新しい手法であるVeriThinkerを紹介する。
論文参考訳（メタデータ） (2025-05-23T14:17:56Z)
Not All Tokens Are What You Need In Thinking [34.767739567093656]
条件付きトークン選択(CTS)は、思考の連鎖において最も重要なトークンのみを特定し保存する。 CTSは、強い推論性能を維持しながら、効果的に長いCoTを圧縮する。さらにトレーニングトークンを42%削減すると、限界5%の精度低下しか生じず、推論トークンの75.8%が減少する。
論文参考訳（メタデータ） (2025-05-23T12:41:29Z)
Evaluating ChatGPT-3.5 Efficiency in Solving Coding Problems of Different Complexity Levels: An Empirical Analysis [6.123324869194196]
我々はLeetCode上でChatGPTのGPT-3.5-turboモデルの性能を評価する。 ChatGPTは困難が増すにつれて少ない問題を解く。次に、プロンプトエンジニアリングによりChatGPTの性能が向上する。第3に、Python、Java、C++といった一般的な言語では、Elixir、Erlang、Racketといったあまり一般的でない言語よりも、ChatGPTの方がパフォーマンスがよい。
論文参考訳（メタデータ） (2024-11-12T04:01:09Z)
Towards Scalable Automated Grading: Leveraging Large Language Models for Conceptual Question Evaluation in Engineering [5.160473221022088]
本研究では,大言語モデル(LLM)を用いた概念質問の自動評価の実現可能性について検討する。テキサスA&M大学における MEEN 361 コースの10クイズ問題に対して GPT-4o の成績を比較した。解析の結果, GPT-4o は評価基準が単純だが, ニュアンス解答に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-11-06T04:41:13Z)
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文参考訳（メタデータ） (2024-09-18T17:55:00Z)
Comparing Neighbors Together Makes it Easy: Jointly Comparing Multiple Candidates for Efficient and Effective Retrieval [36.445443789036226]
一般的な検索と参照のパラダイムは、高速なバイエンコーダ(BE)を使用して、幅広い集合から関連する候補を検索することである。本稿では,クエリと類似候補の複数の埋め込みを,浅い自己認識層を通じて比較する比較多重候補フレームワークを提案する。 ZeSHELデータセットの実験結果は、バイエンコーダとクロスエンコーダをシームレスな中間リランカとして接続した場合、MCCはリコール@kを効果的に改善できることを示した。
論文参考訳（メタデータ） (2024-05-21T13:51:48Z)
Constrained C-Test Generation via Mixed-Integer Programming [55.28927994487036]
本研究は,単語の最後の部分のみをギャップに変換する,クローズテスト(ギャップ充足運動)の形式であるC-テストを生成する新しい手法を提案する。局所最適解を実現するために, ギャップサイズやギャップ配置の変化のみを考慮する従来の研究とは対照的に, 混合整数プログラミング(MIP)アプローチを提案する。当社のコード、モデル、収集したデータは32の英語のC-Testで、それぞれ20のギャップ(3,200の個別のギャップ応答)をオープンソースライセンスで公開しています。
論文参考訳（メタデータ） (2024-04-12T21:35:21Z)
Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。 SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文参考訳（メタデータ） (2024-03-28T06:28:35Z)
Applying Large Language Models and Chain-of-Thought for Automatic Scoring [23.076596289069506]
本研究では,大規模言語モデル(LLM)の学生による科学評価に対する応答の自動評価への適用について検討した。我々は、これまで人工知能ベースの自動スコアリングツールの使用を制限していたアクセシビリティ、技術的複雑さ、説明可能性の欠如といった課題を克服することに注力した。
論文参考訳（メタデータ） (2023-11-30T21:22:43Z)
Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese Spelling Correction [60.32771192285546]
ChatGPTは、様々な下流タスクで素晴らしいパフォーマンスを示している。中国語のSpelling Correction(CSC)タスクでは,人間の評価ではChatGPTが良好に機能するのに対して,従来の指標では低得点であった。本稿では,単語レベルと意味的類似性判断を取り入れた新しい評価指標であるEval-GCSCを提案する。
論文参考訳（メタデータ） (2023-11-14T14:56:33Z)
Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-04-19T16:29:48Z)
Faithful Chain-of-Thought Reasoning [51.21714389639417]
CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
論文参考訳（メタデータ） (2023-01-31T03:04:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。