論文の概要: Large Language Model for Science: A Study on P vs. NP
- arxiv url: http://arxiv.org/abs/2309.05689v1
- Date: Mon, 11 Sep 2023 17:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 15:38:34.926557
- Title: Large Language Model for Science: A Study on P vs. NP
- Title(参考訳): 科学のための大規模言語モデル:P vs. NPに関する研究
- Authors: Qingxiu Dong, Li Dong, Ke Xu, Guangyan Zhou, Yaru Hao, Zhifang Sui,
Furu Wei
- Abstract要約: 大規模言語モデル(LLM)を用いて,P対NP問題の研究を促進・促進する。
具体的には、複雑な問題解決のためのLLMを用いた奥行き思考を促進する一般的なフレームワークであるソクラティック推論を提案する。
我々のP対NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、97の対話ターンを通して厳密な推論を行うことを示した。
- 参考スコア(独自算出の注目度): 88.67249044141529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we use large language models (LLMs) to augment and accelerate
research on the P versus NP problem, one of the most important open problems in
theoretical computer science and mathematics. Specifically, we propose Socratic
reasoning, a general framework that promotes in-depth thinking with LLMs for
complex problem-solving. Socratic reasoning encourages LLMs to recursively
discover, solve, and integrate problems while facilitating self-evaluation and
refinement. Our pilot study on the P vs. NP problem shows that GPT-4
successfully produces a proof schema and engages in rigorous reasoning
throughout 97 dialogue turns, concluding "P $\neq$ NP", which is in alignment
with (Xu and Zhou, 2023). The investigation uncovers novel insights within the
extensive solution space of LLMs, shedding light on LLM for Science.
- Abstract(参考訳): 本研究では、理論計算機科学と数学において最も重要な開問題の一つであるP対NP問題の研究を拡大・加速するために、大規模言語モデル(LLM)を用いる。
具体的には,複雑な問題解決のために llm を用いた深い思考を促進する汎用フレームワーク socratic reasoning を提案する。
ソクラテス的推論は、LLMが自己評価と改善を促進しながら問題を再帰的に発見し、解決し、統合することを奨励する。
P vs. NP問題に関するパイロット研究は、GPT-4が証明スキーマの生成に成功し、「P $\neq$ NP」を含む97の対話ターンを通して厳密な推論を行うことを示した(Xu and Zhou, 2023)。
この調査は、LLMの広範なソリューション空間における新たな洞察を明らかにし、LLM for Scienceに光を当てた。
関連論文リスト
- Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z) - PuzzleBench: Can LLMs Solve Challenging First-Order Combinatorial
Reasoning Problems? [27.696027301600793]
本稿では,31の課題のデータセットであるPuzzleBenchについて紹介する。
これらの問題は、すべて第一次、すなわち、様々な大きさの問題のインスタンスでインスタンス化でき、そのほとんどはNPハードである。
まず,LLMがシンボリック・ソルバによって支援されても,データセット上ではかなり低性能であることを示す。
そこで本研究では,LLMとシンボルソルバとインタプリタを組み合わせた新しいアプローチであるPuzzle-LMを提案する。
論文 参考訳(メタデータ) (2024-02-04T20:56:09Z) - Do Language Models Exhibit the Same Cognitive Biases in Problem Solving
as Human Learners? [118.37810735783991]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。
我々はこれらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリック手法を用いて,新しい単語問題セットを生成する。
論文 参考訳(メタデータ) (2024-01-31T18:48:20Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Thought Propagation: An Analogical Approach to Complex Reasoning with
Large Language Models [70.76692652007469]
大規模言語モデルの複雑な推論能力を高めるために,textbftextitThought Propagation (TP)を提案する。
TP はまず LLM に対して,入力問題に関連する類似問題の集合を提案し,解決するよう促す。
TPは、類似問題の結果を再利用して、新しいソリューションを直接生成したり、スクラッチから得られた初期ソリューションを修正するための知識集約的な実行プランを導出する。
論文 参考訳(メタデータ) (2023-10-06T01:40:09Z) - NLPBench: Evaluating Large Language Models on Solving NLP Problems [41.01588131136101]
大規模言語モデル(LLM)は、自然言語処理(NLP)の能力を高めることを約束している。
イェール大学の最終試験から得られた様々なNLPトピックにまたがる378の大学レベルのNLP質問を含む,ユニークなベンチマークデータセットであるNLPBenchを提案する。
GPT-3.5/4, PaLM-2, LLAMA-2などのLCMに着目した評価では, チェーン・オブ・シークレット(CoT)やツリー・オブ・シークレット(ToT)といった先進的なプロンプト戦略が取り入れられている。
論文 参考訳(メタデータ) (2023-09-27T13:02:06Z) - Can ChatGPT Defend its Belief in Truth? Evaluating LLM Reasoning via
Debate [19.887103433032774]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著なパフォーマンスを示している。
この研究は、LLMの推論を議論のような会話で議論することで検証する。
優れたパフォーマンスにもかかわらず、ChatGPTのようなLLMは、かなりの例において、真実に対する信念を維持できないことに気付きました。
論文 参考訳(メタデータ) (2023-05-22T15:47:31Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。