Fugu-MT 論文翻訳(概要): MacGyver: Are Large Language Models Creative Problem Solvers?

論文の概要: MacGyver: Are Large Language Models Creative Problem Solvers?

arxiv url: http://arxiv.org/abs/2311.09682v1
Date: Thu, 16 Nov 2023 08:52:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 15:33:02.805665
Title: MacGyver: Are Large Language Models Creative Problem Solvers?
Title（参考訳）: MacGyver: 大きな言語モデルは創造的な問題解決なのか?
Authors: Yufei Tian, Abhilasha Ravichander, Lianhui Qin, Ronan Le Bras, Raja Marjieh, Nanyun Peng, Yejin Choi, Thomas L. Griffiths, Faeze Brahman
Abstract要約: 本稿では,現代大言語モデル(LLM)の創造的問題解決能力について,制約のある環境で検討する。私たちは1,600の現実世界の問題からなる自動生成されたデータセットであるMacGyverを作成します。 MacGyverはどちらのグループでも難しいが、ユニークで相補的な方法では難しい。
参考スコア（独自算出の注目度）: 90.62345519188655
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore the creative problem-solving capabilities of modern large language models (LLMs) in a constrained setting. The setting requires circumventing a cognitive bias known in psychology as ''functional fixedness'' to use familiar objects in innovative or unconventional ways. To this end, we create MacGyver, an automatically generated dataset consisting of 1,600 real-world problems that deliberately trigger functional fixedness and require thinking 'out-of-the-box'. We then present our collection of problems to both LLMs and humans to compare and contrast their problem-solving abilities. We show that MacGyver is challenging for both groups, but in unique and complementary ways. For example, humans typically excel in solving problems that they are familiar with but may struggle with tasks requiring domain-specific knowledge, leading to a higher variance. On the other hand, LLMs, being exposed to a variety of highly specialized knowledge, attempt broader problems but are prone to overconfidence and propose actions that are physically infeasible or inefficient. We also provide a detailed error analysis of LLMs, and demonstrate the potential of enhancing their problem-solving ability with novel prompting techniques such as iterative step-wise reflection and divergent-convergent thinking. This work provides insight into the creative problem-solving capabilities of humans and AI and illustrates how psychological paradigms can be extended into large-scale tasks for comparing humans and machines.
Abstract（参考訳）: 我々は,現代大規模言語モデル(llms)の創造的問題解決能力を制約された環境で検討する。この設定では、心理学において「機能的固定性」と呼ばれる認知バイアスを回避し、革新的または非伝統的な方法で親しみやすい物体を使用する必要がある。この目的のためにMacGyverは,機能的固定性を意図的に引き起こし,‘out-of-the-box’を考える必要のある,1,600の現実世界の問題からなる自動生成データセットである。次に、LLMと人間の両方に問題のコレクションを提示し、それらの問題解決能力を比較して比較する。 MacGyverはどちらのグループでも難しいが、ユニークで相補的な方法では難しい。例えば、人間は通常、慣れ親しんだ問題を解決するのに優れているが、ドメイン固有の知識を必要とするタスクに苦しむことがある。一方、LLMは様々な専門知識に晒され、より広範な問題を試みるが、自信過剰になりがちであり、物理的に不可能または非効率な行動を提案する。また, LLMの詳細な誤差解析を行い, 反復的なステップワイドリフレクションや発散コンバージェント思考といった新しいプロンプト技術により, 問題解決能力を高める可能性を示す。この研究は、人間とAIの創造的な問題解決能力についての洞察を与え、人間と機械を比較するための大規模タスクに心理的パラダイムをどのように拡張できるかを説明している。

関連論文リスト

OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文参考訳（メタデータ） (2025-06-23T17:51:40Z)
Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models [28.791905315055974]
我々は、モデルが使用する推論戦略のタイプをより深く調査するために、長い物語形式で書かれたブレインティーザに基づくベンチマークを導入する。ブレインティーザは、創造的な洞察を使った数ステップのソリューションや、より残酷な力を使ったより長いソリューションなど、複数のアプローチで解決することができる。
論文参考訳（メタデータ） (2025-05-16T04:23:34Z)
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey [48.53273952814492]
大規模言語モデル(LLM)は、様々なドメインにまたがる複雑な問題に対処できる強力なツールとして登場した。 LLMを現実世界の問題解決に適用することは、多段階推論、ドメイン知識の統合、結果検証など、重大な課題を提示します。
論文参考訳（メタデータ） (2025-05-06T10:53:58Z)
Assessing the Creativity of LLMs in Proposing Novel Solutions to Mathematical Problems [9.162206328913237]
本研究では,Large Language Models (LLMs) の数学的推論における創造的可能性について検討する。本稿では,中学のカリキュラムからオリンピックレベルの競技までを含む新しいフレームワークとベンチマークであるCreativeMathを紹介する。実験の結果, LLMは標準的な数学的なタスクではうまく機能するが, 創造的な問題解決能力は著しく異なることがわかった。
論文参考訳（メタデータ） (2024-10-24T00:12:49Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
Benchmarking Language Model Creativity: A Case Study on Code Generation [39.546827184857754]
本研究では,LLMの創造性を定量化するフレームワークを提案する。生成した創造的応答における収束的思考と発散的思考の両方を定量化する計量であるNEOGAUGEを定義する。我々はCodeforcesの問題に関する提案されたフレームワークをテストする。これは、タスクをコーディングするための自然なデータセットと、先行する人間のソリューションのコレクションの両方に役立ちます。
論文参考訳（メタデータ） (2024-07-12T05:55:22Z)
Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文参考訳（メタデータ） (2024-02-27T22:07:52Z)
Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges [60.62904929065257]
大規模言語モデル(LLM)は、個々の要求を解釈することでこの問題を解決する可能性を提供する。本稿では, 数学, 文章, プログラミング, 推論, 知識に基づく質問応答など, 教育能力に関する最近のLLM研究を概観する。
論文参考訳（メタデータ） (2023-12-27T14:37:32Z)
ACES: Generating Diverse Programming Puzzles with with Autotelic Generative Models [20.039580079339537]
Autotelic CodE Search (ACES)は、生成した問題の多様性と難易度を共同で最適化する。問題解決に必要なプログラミングスキルを記述したセマンティック記述子の空間における問題を表現する。 ACESは、ターゲットセマンティック記述子の多様性を達成するため、大きな言語モデルに難しい問題を引き起こすことを反復的に促します。
論文参考訳（メタデータ） (2023-10-15T14:57:14Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
MLCopilot: Unleashing the Power of Large Language Models in Solving Machine Learning Tasks [31.733088105662876]
我々は、新しいフレームワークを導入することで、機械学習と人間の知識のギャップを埋めることを目指している。本稿では、構造化された入力を理解するためのLLMの能力を拡張し、新しいMLタスクを解くための徹底的な推論を行う可能性を示す。
論文参考訳（メタデータ） (2023-04-28T17:03:57Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。