論文の概要: Invalid Logic, Equivalent Gains: The Bizarreness of Reasoning in
Language Model Prompting
- arxiv url: http://arxiv.org/abs/2307.10573v2
- Date: Sun, 23 Jul 2023 02:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 11:24:55.455421
- Title: Invalid Logic, Equivalent Gains: The Bizarreness of Reasoning in
Language Model Prompting
- Title(参考訳): 無効論理と等価なゲイン:言語モデルのプロンプトにおける推論の奇妙な性質
- Authors: Rylan Schaeffer, Kateryna Pistunova, Samar Khanna, Sarthak Consul,
Sanmi Koyejo
- Abstract要約: 論理的にtextitinvalid Chain-of-Thought (CoT) プロンプトを使用すると、論理的に textitinvalid CoT プロンプトと同じくらいの性能が向上する。
論理的に無効なCoTプロンプトが論理的に有効なプロンプトと同じレベルのパフォーマンスゲインを提供するかどうかをテストする。
- 参考スコア(独自算出の注目度): 9.683505038585988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can be prompted to reason through problems in a manner that
significantly improves performance. However, \textit{why} such prompting
improves performance is unclear. Recent work showed that using logically
\textit{invalid} Chain-of-Thought (CoT) prompting improves performance almost
as much as logically \textit{valid} CoT prompting, and that editing CoT prompts
to replace problem-specific information with abstract information or
out-of-distribution information typically doesn't harm performance. Critics
have responded that these findings are based on too few and too easily solved
tasks to draw meaningful conclusions. To resolve this dispute, we test whether
logically invalid CoT prompts offer the same level of performance gains as
logically valid prompts on the hardest tasks in the BIG-Bench benchmark, termed
BIG-Bench Hard (BBH). We find that the logically \textit{invalid} reasoning
prompts do indeed achieve similar performance gains on BBH tasks as logically
valid reasoning prompts. We also discover that some CoT prompts used by
previous works contain logical errors. This suggests that covariates beyond
logically valid reasoning are responsible for performance improvements.
- Abstract(参考訳): 言語モデルは、パフォーマンスを大幅に向上させる方法で問題を通じて推論するよう促すことができる。
しかし、このようなプロンプトによるパフォーマンス改善は明らかではない。
最近の研究では、論理的な \textit{invalid} chain-of-thought (cot) プロンプトを用いることで、論理的な \textit{valid} cotプロンプトと同じくらいのパフォーマンスが向上し、cotの編集によって問題固有の情報を抽象情報や分散情報に置き換えることが通常性能に影響を与えないことが示された。
批評家は、これらの発見は意味のある結論を導き出すにはあまりにも少なく、簡単に解決できないタスクに基づいていると答えている。
この問題を解決するために、論理的に無効なCoTプロンプトが、BIG-Bench Hard(BBH)と呼ばれるBIG-Benchベンチマークの最も難しいタスクにおいて、論理的に有効なプロンプトと同じレベルのパフォーマンスゲインを提供するかどうかをテストする。
論理的に textit{invalid} 推論プロンプトは、BBH タスクにおいて論理的に有効な推論プロンプトとして、確かに同様のパフォーマンスゲインを達成する。
また、前作で使われたcotプロンプトには論理的なエラーが含まれていることもわかりました。
これは、論理的に妥当な推論を超えた共変項がパフォーマンス改善の責任を負うことを示唆している。
関連論文リスト
- Instance-adaptive Zero-shot Chain-of-Thought Prompting [32.700073951068575]
Zero-shot Chain-of-Thought (CoT) は,実世界の推論タスクにおける大規模言語モデル(LLM)の性能向上のための,シンプルかつ効果的な戦略として出現する。
この研究は、良いプロンプトと悪いプロンプトを適応的に微分することで、代替のゼロショットCoT推論スキームとして、インスタンス適応プロンプトアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-09-30T16:00:34Z) - Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models [10.106408289179463]
本稿では,入力コンテキストから拡張論理情報を生成するために,命題論理を利用するロジック・オブ・ソート(LoT)プロンプトを提案する。
LoTは5つの論理的推論タスクで顕著なマージンで、様々なプロンプトメソッドのパフォーマンスを向上する。
論文 参考訳(メタデータ) (2024-09-26T04:59:45Z) - To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Chain of Thoughtlessness? An Analysis of CoT in Planning [17.329365493094542]
推論問題におけるLLM(Large Language Model)のパフォーマンスは通常、分布から一般化しない。
本稿では,古典的計画領域であるBlocksworldの問題に対する思考連鎖のケーススタディを示す。
それらのプロンプトが問題クラスに特有である場合、一連の思考プロンプトから有意義なパフォーマンス改善が得られます。
論文 参考訳(メタデータ) (2024-05-08T02:48:28Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Logic-Driven Context Extension and Data Augmentation for Logical
Reasoning of Text [65.24325614642223]
論理的な記号や表現をテキストで理解し、答えにたどり着くよう提案します。
このような論理的情報に基づいて,文脈拡張フレームワークとデータ拡張アルゴリズムを提案する。
本手法は最先端の性能を実現し,論理駆動コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度向上に寄与する。
論文 参考訳(メタデータ) (2021-05-08T10:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。