論文の概要: Puzzle Solving using Reasoning of Large Language Models: A Survey
- arxiv url: http://arxiv.org/abs/2402.11291v1
- Date: Sat, 17 Feb 2024 14:19:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 22:13:38.534975
- Title: Puzzle Solving using Reasoning of Large Language Models: A Survey
- Title(参考訳): 大規模言語モデルの推論を用いたパズル解法:調査
- Authors: Panagiotis Giadikiaroglou, Maria Lymperaiou, Giorgos Filandrianos,
Giorgos Stamou
- Abstract要約: 本稿では,Large Language Models (LLMs) のパズル解法における能力について検討する。
以上の結果から,LLM能力と人為的推論の相違が明らかとなった。
この調査は、LLMのパズル解決能力を向上させるために、新しい戦略とよりリッチなデータセットの必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 2.1392064955842023
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Exploring the capabilities of Large Language Models (LLMs) in puzzle solving
unveils critical insights into their potential and challenges in artificial
intelligence, marking a significant step towards understanding their
applicability in complex reasoning tasks. This survey leverages a unique
taxonomy -- dividing puzzles into rule-based and rule-less categories -- to
critically assess LLMs through various methodologies, including prompting
techniques, neuro-symbolic approaches, and fine-tuning. Through a critical
review of relevant datasets and benchmarks, we assess LLMs' performance,
identifying significant challenges in complex puzzle scenarios. Our findings
highlight the disparity between LLM capabilities and human-like reasoning,
particularly in those requiring advanced logical inference. The survey
underscores the necessity for novel strategies and richer datasets to advance
LLMs' puzzle-solving proficiency and contribute to AI's logical reasoning and
creative problem-solving advancements.
- Abstract(参考訳): パズル解決におけるLarge Language Models(LLM)の機能の探索は、人工知能におけるその可能性と課題に関する重要な洞察を公開し、複雑な推論タスクにおけるそれらの適用性を理解するための重要なステップとなる。
この調査では、パズルをルールベースとルールレスのカテゴリに分割するユニークな分類法を活用し、様々な方法論を通じてLSMを批判的に評価する。
関連するデータセットとベンチマークの批判的レビューを通じて、LLMの性能を評価し、複雑なパズルシナリオにおける重要な課題を特定する。
本研究は,高度な論理的推論を必要とする人において,LLM能力と人間ライクな推論の相違を強調した。
この調査は、LLMのパズル解決能力を高め、AIの論理的推論と創造的問題解決の進歩に貢献するために、新しい戦略とよりリッチなデータセットの必要性を強調している。
関連論文リスト
- Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - K-Level Reasoning with Large Language Models [80.13817747270029]
急速に発展する環境における意思決定のための大規模言語モデル(LLM)の動的推論機能について検討する。
実世界の動的意思決定の複雑さを反映した2つのゲーム理論に基づくパイロットチャレンジを導入する。
これらの課題は明確に定義されており、LLMの動的推論能力の明確で制御可能で正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - From Understanding to Utilization: A Survey on Explainability for Large
Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。
主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。
説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文 参考訳(メタデータ) (2024-01-23T16:09:53Z) - Caught in the Quicksand of Reasoning, Far from AGI Summit: Evaluating
LLMs' Mathematical and Coding Competency through Ontology-guided
Interventions [50.68293377521595]
大規模言語モデル(LLM)は論理的推論ベンチマークで顕著な結果を示した。
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
質問に対して、すべてのモデルで大幅なパフォーマンス低下を見せています。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Visual AI and Linguistic Intelligence Through Steerability and
Composability [0.0]
本研究では,言語と視覚を統合した多段階課題に対処する上で,LLM(Multimodal large language model)の機能について検討する。
この研究は、AI Lego DesigningからAI Satellite Image Analysisまで、創造的で建設的に多様な14のタスクを提示する。
論文 参考訳(メタデータ) (2023-11-18T22:01:33Z) - Assessing Logical Puzzle Solving in Large Language Models: Insights from a Minesweeper Case Study [10.95835611110119]
我々は、Large Language Models (LLM) になじみのないフォーマットで設計された新しいタスク、Minesweeperを導入する。
このタスクは、隣接するオープンセルが提供する数値的な手がかりに基づいて、LLMが鉱山の位置を特定することを課題とする。
我々の実験は、先進的な GPT-4 モデルによる試行を含むもので、LLM は、この課題に必要な基礎的能力を持っているが、Minesweeper を解くために必要な一貫性のある多段階論理的推論プロセスにこれらを統合するのに苦労していることを示している。
論文 参考訳(メタデータ) (2023-11-13T15:11:26Z) - Learning To Teach Large Language Models Logical Reasoning [33.88499005859982]
大規模言語モデル(LLM)は、学術と産業の両方から大きな注目を集めている。
しかし、現在のLLMは、その固有の問題のために、実用的な推論タスクにおいて信頼性の低いコンテンツを出力している。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Skills-in-Context Prompting: Unlocking Compositionality in Large
Language Models [71.60282319755527]
本稿では,LLMに対して,より複雑な問題を解決するための基本的なスキルの作り方を指示する,SKiCプロンプトを提案する。
我々は、同じプロンプトの文脈において、スキルと構成例の両方を実証することが重要であることに気付きました。
このような顕著な特徴により、SKiCプロンプトは、挑戦的な数学的推論ベンチマークで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2023-08-01T05:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。