Fugu-MT 論文翻訳(概要): MacGyver: Are Large Language Models Creative Problem Solvers?

論文の概要: MacGyver: Are Large Language Models Creative Problem Solvers?

arxiv url: http://arxiv.org/abs/2311.09682v2
Date: Thu, 21 Mar 2024 22:44:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 22:40:07.954891
Title: MacGyver: Are Large Language Models Creative Problem Solvers?
Title（参考訳）: MacGyver: 大きな言語モデルは創造的な問題解決なのか?
Authors: Yufei Tian, Abhilasha Ravichander, Lianhui Qin, Ronan Le Bras, Raja Marjieh, Nanyun Peng, Yejin Choi, Thomas L. Griffiths, Faeze Brahman,
Abstract要約: 本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
参考スコア（独自算出の注目度）: 87.70522322728581
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We explore the creative problem-solving capabilities of modern LLMs in a novel constrained setting. To this end, we create MACGYVER, an automatically generated dataset consisting of over 1,600 real-world problems deliberately designed to trigger innovative usage of objects and necessitate out-of-the-box thinking. We then present our collection to both LLMs and humans to compare and contrast their problem-solving abilities. MACGYVER is challenging for both groups, but in unique and complementary ways. For instance, humans excel in tasks they are familiar with but struggle with domain-specific knowledge, leading to a higher variance. In contrast, LLMs, exposed to a variety of specialized knowledge, attempt broader problems but fail by proposing physically-infeasible actions. Finally, we provide a detailed error analysis of LLMs, and demonstrate the potential of enhancing their problem-solving ability with novel prompting techniques such as iterative step-wise reflection and divergent-convergent thinking. This work (1) introduces a fresh arena for intelligent agents focusing on intricate aspects of physical reasoning, planning, and unconventional thinking, which supplements the existing spectrum of machine intelligence; and (2) provides insight into the constrained problem-solving capabilities of both humans and AI.
Abstract（参考訳）: 本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。この目的のためにMACGYVERを作成した。これは1,600以上の現実世界の問題からなる自動生成データセットで、革新的なオブジェクトの使用を誘発し、アウト・オブ・ザ・ボックスの思考を必要とするように意図的に設計されている。 LLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。 MACGYVERはどちらのグループにも挑戦するが、独特で補完的な方法がある。例えば、人間は慣れ親しんだタスクに精通するが、ドメイン固有の知識に苦しむため、より分散する。対照的に、LLMは様々な専門知識に晒され、より広範な問題を試みるが、物理的に不可能な行動を提案することで失敗する。最後に, LLMの詳細な誤り解析を行い, 反復的なステップワイドリフレクションや散発的収束思考といった新しいプロンプト技術により, 問題解決能力を高める可能性を示す。本研究は,機械知能の既存のスペクトルを補完する身体的推論,計画,非伝統的な思考の複雑な側面に着目した,知的エージェントのための新たなアリーナを紹介し,また,人間とAIの制約された問題解決能力に関する洞察を提供する。

関連論文リスト

OMEGA: Can LLMs Reason Outside the Box in Math? Evaluating Exploratory, Compositional, and Transformative Generalization [88.76091817642963]
最近の大規模言語モデル (LLMs) は、DeepSeek-R1-のような長い鎖の推論を持ち、オリンピアード級数学において印象的な成果を上げている。本稿では,3つの分布外一般化の軸を評価するために設計された3つの一般化 Axes-a ベンチマークを用いた OMEGA-Out-of-distriion Math Problems Evaluation を提案する。
論文参考訳（メタデータ） (2025-06-23T17:51:40Z)
Creativity or Brute Force? Using Brainteasers as a Window into the Problem-Solving Abilities of Large Language Models [28.791905315055974]
我々は、モデルが使用する推論戦略のタイプをより深く調査するために、長い物語形式で書かれたブレインティーザに基づくベンチマークを導入する。ブレインティーザは、創造的な洞察を使った数ステップのソリューションや、より残酷な力を使ったより長いソリューションなど、複数のアプローチで解決することができる。
論文参考訳（メタデータ） (2025-05-16T04:23:34Z)
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey [48.53273952814492]
大規模言語モデル(LLM)は、様々なドメインにまたがる複雑な問題に対処できる強力なツールとして登場した。 LLMを現実世界の問題解決に適用することは、多段階推論、ドメイン知識の統合、結果検証など、重大な課題を提示します。
論文参考訳（メタデータ） (2025-05-06T10:53:58Z)
Assessing the Creativity of LLMs in Proposing Novel Solutions to Mathematical Problems [9.162206328913237]
本研究では,Large Language Models (LLMs) の数学的推論における創造的可能性について検討する。本稿では,中学のカリキュラムからオリンピックレベルの競技までを含む新しいフレームワークとベンチマークであるCreativeMathを紹介する。実験の結果, LLMは標準的な数学的なタスクではうまく機能するが, 創造的な問題解決能力は著しく異なることがわかった。
論文参考訳（メタデータ） (2024-10-24T00:12:49Z)
BloomWise: Enhancing Problem-Solving capabilities of Large Language Models using Bloom's-Taxonomy-Inspired Prompts [59.83547898874152]
我々は,Bloomの分類にインスパイアされた新しいプロンプト技術であるBloomWiseを導入し,Large Language Models(LLMs)の性能を向上させる。より洗練された認知スキルを身につける必要性に関する決定は、LLMによる自己評価に基づいている。 4つの一般的な算数推論データセットの広範な実験において,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-10-05T09:27:52Z)
Benchmarking Language Model Creativity: A Case Study on Code Generation [39.546827184857754]
本研究では,LLMの創造性を定量化するフレームワークを提案する。生成した創造的応答における収束的思考と発散的思考の両方を定量化する計量であるNEOGAUGEを定義する。我々はCodeforcesの問題に関する提案されたフレームワークをテストする。これは、タスクをコーディングするための自然なデータセットと、先行する人間のソリューションのコレクションの両方に役立ちます。
論文参考訳（メタデータ） (2024-07-12T05:55:22Z)
Adversarial Math Word Problem Generation [6.92510069380188]
大規模言語モデル(LLM)の公平な評価を保証するための新しいパラダイムを提案する。評価を目的とした質問の構造と難易度を保持する逆例を生成するが,LLMでは解けない。我々は様々なオープン・クローズド・ソース LLM の実験を行い、定量的かつ質的に、我々の手法が数学の問題解決能力を著しく低下させることを示した。
論文参考訳（メタデータ） (2024-02-27T22:07:52Z)
Adapting Large Language Models for Education: Foundational Capabilities, Potentials, and Challenges [60.62904929065257]
大規模言語モデル(LLM)は、個々の要求を解釈することでこの問題を解決する可能性を提供する。本稿では, 数学, 文章, プログラミング, 推論, 知識に基づく質問応答など, 教育能力に関する最近のLLM研究を概観する。
論文参考訳（メタデータ） (2023-12-27T14:37:32Z)
ACES: Generating Diverse Programming Puzzles with with Autotelic Generative Models [20.039580079339537]
Autotelic CodE Search (ACES)は、生成した問題の多様性と難易度を共同で最適化する。問題解決に必要なプログラミングスキルを記述したセマンティック記述子の空間における問題を表現する。 ACESは、ターゲットセマンティック記述子の多様性を達成するため、大きな言語モデルに難しい問題を引き起こすことを反復的に促します。
論文参考訳（メタデータ） (2023-10-15T14:57:14Z)
Brain in a Vat: On Missing Pieces Towards Artificial General Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文参考訳（メタデータ） (2023-07-07T13:58:16Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
MLCopilot: Unleashing the Power of Large Language Models in Solving Machine Learning Tasks [31.733088105662876]
我々は、新しいフレームワークを導入することで、機械学習と人間の知識のギャップを埋めることを目指している。本稿では、構造化された入力を理解するためのLLMの能力を拡張し、新しいMLタスクを解くための徹底的な推論を行う可能性を示す。
論文参考訳（メタデータ） (2023-04-28T17:03:57Z)
OpenAGI: When LLM Meets Domain Experts [51.86179657467822]
ヒューマン・インテリジェンス(HI)は、複雑なタスクを解くための基本的なスキルの組み合わせに長けている。この機能は人工知能(AI)にとって不可欠であり、包括的なAIエージェントに組み込まれるべきである。マルチステップで現実的なタスクを解決するために設計されたオープンソースのプラットフォームであるOpenAGIを紹介します。
論文参考訳（メタデータ） (2023-04-10T03:55:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。