論文の概要: Invalid Logic, Equivalent Gains: The Bizarreness of Reasoning in
Language Model Prompting
- arxiv url: http://arxiv.org/abs/2307.10573v2
- Date: Sun, 23 Jul 2023 02:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 11:24:55.455421
- Title: Invalid Logic, Equivalent Gains: The Bizarreness of Reasoning in
Language Model Prompting
- Title(参考訳): 無効論理と等価なゲイン:言語モデルのプロンプトにおける推論の奇妙な性質
- Authors: Rylan Schaeffer, Kateryna Pistunova, Samar Khanna, Sarthak Consul,
Sanmi Koyejo
- Abstract要約: 論理的にtextitinvalid Chain-of-Thought (CoT) プロンプトを使用すると、論理的に textitinvalid CoT プロンプトと同じくらいの性能が向上する。
論理的に無効なCoTプロンプトが論理的に有効なプロンプトと同じレベルのパフォーマンスゲインを提供するかどうかをテストする。
- 参考スコア(独自算出の注目度): 9.683505038585988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models can be prompted to reason through problems in a manner that
significantly improves performance. However, \textit{why} such prompting
improves performance is unclear. Recent work showed that using logically
\textit{invalid} Chain-of-Thought (CoT) prompting improves performance almost
as much as logically \textit{valid} CoT prompting, and that editing CoT prompts
to replace problem-specific information with abstract information or
out-of-distribution information typically doesn't harm performance. Critics
have responded that these findings are based on too few and too easily solved
tasks to draw meaningful conclusions. To resolve this dispute, we test whether
logically invalid CoT prompts offer the same level of performance gains as
logically valid prompts on the hardest tasks in the BIG-Bench benchmark, termed
BIG-Bench Hard (BBH). We find that the logically \textit{invalid} reasoning
prompts do indeed achieve similar performance gains on BBH tasks as logically
valid reasoning prompts. We also discover that some CoT prompts used by
previous works contain logical errors. This suggests that covariates beyond
logically valid reasoning are responsible for performance improvements.
- Abstract(参考訳): 言語モデルは、パフォーマンスを大幅に向上させる方法で問題を通じて推論するよう促すことができる。
しかし、このようなプロンプトによるパフォーマンス改善は明らかではない。
最近の研究では、論理的な \textit{invalid} chain-of-thought (cot) プロンプトを用いることで、論理的な \textit{valid} cotプロンプトと同じくらいのパフォーマンスが向上し、cotの編集によって問題固有の情報を抽象情報や分散情報に置き換えることが通常性能に影響を与えないことが示された。
批評家は、これらの発見は意味のある結論を導き出すにはあまりにも少なく、簡単に解決できないタスクに基づいていると答えている。
この問題を解決するために、論理的に無効なCoTプロンプトが、BIG-Bench Hard(BBH)と呼ばれるBIG-Benchベンチマークの最も難しいタスクにおいて、論理的に有効なプロンプトと同じレベルのパフォーマンスゲインを提供するかどうかをテストする。
論理的に textit{invalid} 推論プロンプトは、BBH タスクにおいて論理的に有効な推論プロンプトとして、確かに同様のパフォーマンスゲインを達成する。
また、前作で使われたcotプロンプトには論理的なエラーが含まれていることもわかりました。
これは、論理的に妥当な推論を超えた共変項がパフォーマンス改善の責任を負うことを示唆している。
関連論文リスト
- A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for
Verifiers of Reasoning Chains [34.72503489170055]
ステップバイステップの回答を提供する言語モデル(例:Chain-of-Thought)は、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - I Wish to Have an Argument: Argumentative Reasoning in Large Language
Models [0.3916094706589679]
我々は,現代大言語モデル (LLM) が議論的推論を行う能力を評価する。
LLM は AM や APE の最先端技術に適合または超越することができるが,それらの議論的推論性能は入力と出力の表現に大きく依存している。
論文 参考訳(メタデータ) (2023-09-29T02:41:38Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - Logic-Driven Context Extension and Data Augmentation for Logical
Reasoning of Text [65.24325614642223]
論理的な記号や表現をテキストで理解し、答えにたどり着くよう提案します。
このような論理的情報に基づいて,文脈拡張フレームワークとデータ拡張アルゴリズムを提案する。
本手法は最先端の性能を実現し,論理駆動コンテキスト拡張フレームワークとデータ拡張アルゴリズムの両方が精度向上に寄与する。
論文 参考訳(メタデータ) (2021-05-08T10:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。