論文の概要: MacGyver: Are Large Language Models Creative Problem Solvers?
- arxiv url: http://arxiv.org/abs/2311.09682v1
- Date: Thu, 16 Nov 2023 08:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:33:02.805665
- Title: MacGyver: Are Large Language Models Creative Problem Solvers?
- Title(参考訳): MacGyver: 大きな言語モデルは創造的な問題解決なのか?
- Authors: Yufei Tian, Abhilasha Ravichander, Lianhui Qin, Ronan Le Bras, Raja
Marjieh, Nanyun Peng, Yejin Choi, Thomas L. Griffiths, Faeze Brahman
- Abstract要約: 本稿では,現代大言語モデル(LLM)の創造的問題解決能力について,制約のある環境で検討する。
私たちは1,600の現実世界の問題からなる自動生成されたデータセットであるMacGyverを作成します。
MacGyverはどちらのグループでも難しいが、ユニークで相補的な方法では難しい。
- 参考スコア(独自算出の注目度): 90.62345519188655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We explore the creative problem-solving capabilities of modern large language
models (LLMs) in a constrained setting. The setting requires circumventing a
cognitive bias known in psychology as ''functional fixedness'' to use familiar
objects in innovative or unconventional ways. To this end, we create MacGyver,
an automatically generated dataset consisting of 1,600 real-world problems that
deliberately trigger functional fixedness and require thinking
'out-of-the-box'. We then present our collection of problems to both LLMs and
humans to compare and contrast their problem-solving abilities. We show that
MacGyver is challenging for both groups, but in unique and complementary ways.
For example, humans typically excel in solving problems that they are familiar
with but may struggle with tasks requiring domain-specific knowledge, leading
to a higher variance. On the other hand, LLMs, being exposed to a variety of
highly specialized knowledge, attempt broader problems but are prone to
overconfidence and propose actions that are physically infeasible or
inefficient. We also provide a detailed error analysis of LLMs, and demonstrate
the potential of enhancing their problem-solving ability with novel prompting
techniques such as iterative step-wise reflection and divergent-convergent
thinking. This work provides insight into the creative problem-solving
capabilities of humans and AI and illustrates how psychological paradigms can
be extended into large-scale tasks for comparing humans and machines.
- Abstract(参考訳): 我々は,現代大規模言語モデル(llms)の創造的問題解決能力を制約された環境で検討する。
この設定では、心理学において「機能的固定性」と呼ばれる認知バイアスを回避し、革新的または非伝統的な方法で親しみやすい物体を使用する必要がある。
この目的のためにMacGyverは,機能的固定性を意図的に引き起こし,‘out-of-the-box’を考える必要のある,1,600の現実世界の問題からなる自動生成データセットである。
次に、LLMと人間の両方に問題のコレクションを提示し、それらの問題解決能力を比較して比較する。
MacGyverはどちらのグループでも難しいが、ユニークで相補的な方法では難しい。
例えば、人間は通常、慣れ親しんだ問題を解決するのに優れているが、ドメイン固有の知識を必要とするタスクに苦しむことがある。
一方、LLMは様々な専門知識に晒され、より広範な問題を試みるが、自信過剰になりがちであり、物理的に不可能または非効率な行動を提案する。
また, LLMの詳細な誤差解析を行い, 反復的なステップワイドリフレクションや発散コンバージェント思考といった新しいプロンプト技術により, 問題解決能力を高める可能性を示す。
この研究は、人間とAIの創造的な問題解決能力についての洞察を与え、人間と機械を比較するための大規模タスクに心理的パラダイムをどのように拡張できるかを説明している。
関連論文リスト
- Assessing the Creativity of LLMs in Proposing Novel Solutions to Mathematical Problems [9.162206328913237]
本研究では,Large Language Models (LLMs) の数学的推論における創造的可能性について検討する。
本稿では,中学のカリキュラムからオリンピックレベルの競技までを含む新しいフレームワークとベンチマークであるCreativeMathを紹介する。
実験の結果, LLMは標準的な数学的なタスクではうまく機能するが, 創造的な問題解決能力は著しく異なることがわかった。
論文 参考訳(メタデータ) (2024-10-24T00:12:49Z) - BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。
より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。
4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-05T09:27:52Z) - Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。
評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。
我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文 参考訳(メタデータ) (2024-02-27T22:07:52Z) - Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges [60.62904929065257]
大規模言語モデル(LLM)は、個々の要求を解釈することでこの問題を解決する可能性を提供する。
本稿では, 数学, 文章, プログラミング, 推論, 知識に基づく質問応答など, 教育能力に関する最近のLLM研究を概観する。
論文 参考訳(メタデータ) (2023-12-27T14:37:32Z) - ACES: Generating Diverse Programming Puzzles with with Autotelic Generative Models [20.039580079339537]
Autotelic CodE Search (ACES)は、生成した問題の多様性と難易度を共同で最適化する。
問題解決に必要なプログラミングスキルを記述したセマンティック記述子の空間における問題を表現する。
ACESは、ターゲットセマンティック記述子の多様性を達成するため、大きな言語モデルに難しい問題を引き起こすことを反復的に促します。
論文 参考訳(メタデータ) (2023-10-15T14:57:14Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - MLCopilot: Unleashing the Power of Large Language Models in Solving
Machine Learning Tasks [31.733088105662876]
我々は、新しいフレームワークを導入することで、機械学習と人間の知識のギャップを埋めることを目指している。
本稿では、構造化された入力を理解するためのLLMの能力を拡張し、新しいMLタスクを解くための徹底的な推論を行う可能性を示す。
論文 参考訳(メタデータ) (2023-04-28T17:03:57Z) - OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。
この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。
マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文 参考訳(メタデータ) (2023-04-10T03:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。