Fugu-MT 論文翻訳(概要): Invalid Logic, Equivalent Gains: The Bizarreness of Reasoning in Language Model Prompting

論文の概要: Invalid Logic, Equivalent Gains: The Bizarreness of Reasoning in Language Model Prompting

arxiv url: http://arxiv.org/abs/2307.10573v2
Date: Sun, 23 Jul 2023 02:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 11:24:55.455421
Title: Invalid Logic, Equivalent Gains: The Bizarreness of Reasoning in Language Model Prompting
Title（参考訳）: 無効論理と等価なゲイン:言語モデルのプロンプトにおける推論の奇妙な性質
Authors: Rylan Schaeffer, Kateryna Pistunova, Samar Khanna, Sarthak Consul, Sanmi Koyejo
Abstract要約: 論理的にtextitinvalid Chain-of-Thought (CoT) プロンプトを使用すると、論理的に textitinvalid CoT プロンプトと同じくらいの性能が向上する。論理的に無効なCoTプロンプトが論理的に有効なプロンプトと同じレベルのパフォーマンスゲインを提供するかどうかをテストする。
参考スコア（独自算出の注目度）: 9.683505038585988
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models can be prompted to reason through problems in a manner that significantly improves performance. However, \textit{why} such prompting improves performance is unclear. Recent work showed that using logically \textit{invalid} Chain-of-Thought (CoT) prompting improves performance almost as much as logically \textit{valid} CoT prompting, and that editing CoT prompts to replace problem-specific information with abstract information or out-of-distribution information typically doesn't harm performance. Critics have responded that these findings are based on too few and too easily solved tasks to draw meaningful conclusions. To resolve this dispute, we test whether logically invalid CoT prompts offer the same level of performance gains as logically valid prompts on the hardest tasks in the BIG-Bench benchmark, termed BIG-Bench Hard (BBH). We find that the logically \textit{invalid} reasoning prompts do indeed achieve similar performance gains on BBH tasks as logically valid reasoning prompts. We also discover that some CoT prompts used by previous works contain logical errors. This suggests that covariates beyond logically valid reasoning are responsible for performance improvements.
Abstract（参考訳）: 言語モデルは、パフォーマンスを大幅に向上させる方法で問題を通じて推論するよう促すことができる。しかし、このようなプロンプトによるパフォーマンス改善は明らかではない。最近の研究では、論理的な \textit{invalid} chain-of-thought (cot) プロンプトを用いることで、論理的な \textit{valid} cotプロンプトと同じくらいのパフォーマンスが向上し、cotの編集によって問題固有の情報を抽象情報や分散情報に置き換えることが通常性能に影響を与えないことが示された。批評家は、これらの発見は意味のある結論を導き出すにはあまりにも少なく、簡単に解決できないタスクに基づいていると答えている。この問題を解決するために、論理的に無効なCoTプロンプトが、BIG-Bench Hard(BBH)と呼ばれるBIG-Benchベンチマークの最も難しいタスクにおいて、論理的に有効なプロンプトと同じレベルのパフォーマンスゲインを提供するかどうかをテストする。論理的に textit{invalid} 推論プロンプトは、BBH タスクにおいて論理的に有効な推論プロンプトとして、確かに同様のパフォーマンスゲインを達成する。また、前作で使われたcotプロンプトには論理的なエラーが含まれていることもわかりました。これは、論理的に妥当な推論を超えた共変項がパフォーマンス改善の責任を負うことを示唆している。

関連論文リスト

Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。 SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
Think Beyond Size: Adaptive Prompting for More Effective Reasoning [0.0]
本稿では,動的かつ反復的なフレームワークであるAdaptive Promptingを紹介する。その結果、Adaptive Promptingは、算術的推論(GSM8K、MultiArithm)、論理的推論、コモンセンスタスクなど、様々な推論ベンチマークのパフォーマンスを著しく向上させることを示した。提案手法は,計算効率を維持しつつ,GPT-4などの大規模モデルと競合する性能を実現する。
論文参考訳（メタデータ） (2024-10-10T17:14:36Z)
Instance-adaptive Zero-shot Chain-of-Thought Prompting [32.700073951068575]
Zero-shot Chain-of-Thought (CoT) は,実世界の推論タスクにおける大規模言語モデル(LLM)の性能向上のための,シンプルかつ効果的な戦略として出現する。この研究は、良いプロンプトと悪いプロンプトを適応的に微分することで、代替のゼロショットCoT推論スキームとして、インスタンス適応プロンプトアルゴリズムを導入する。
論文参考訳（メタデータ） (2024-09-30T16:00:34Z)
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models [10.106408289179463]
本稿では,入力コンテキストから拡張論理情報を生成するために,命題論理を利用するロジック・オブ・ソート(LoT)プロンプトを提案する。 LoTは5つの論理的推論タスクで顕著なマージンで、様々なプロンプトメソッドのパフォーマンスを向上する。
論文参考訳（メタデータ） (2024-09-26T04:59:45Z)
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文参考訳（メタデータ） (2024-09-18T17:55:00Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
Chain of Thoughtlessness? An Analysis of CoT in Planning [17.329365493094542]
推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。本稿では,古典的計画領域であるBlocksworldの問題に対する思考連鎖のケーススタディを示す。それらのプロンプトが問題クラスに特有である場合、一連の思考プロンプトから有意義なパフォーマンス改善が得られます。
論文参考訳（メタデータ） (2024-05-08T02:48:28Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文参考訳（メタデータ） (2023-10-03T00:57:26Z)
Explanation Selection Using Unlabeled Data for Chain-of-Thought Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文参考訳（メタデータ） (2023-02-09T18:02:34Z)
Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する無効な実演でもCoT推論が可能であることを示す。
論文参考訳（メタデータ） (2022-12-20T05:20:54Z)
Logic-Driven Context Extension and Data Augmentation for Logical Reasoning of Text [65.24325614642223]
論理的な記号や表現をテキストで理解し、答えにたどり着くよう提案します。このような論理的情報に基づいて,文脈拡張フレームワークとデータ拡張アルゴリズムを提案する。本手法は最先端の性能を実現し,論理駆動コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度向上に寄与する。
論文参考訳（メタデータ） (2021-05-08T10:09:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。