論文の概要: What to Ask Next? Probing the Imaginative Reasoning of LLMs with TurtleSoup Puzzles
- arxiv url: http://arxiv.org/abs/2508.10358v1
- Date: Thu, 14 Aug 2025 05:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.19198
- Title: What to Ask Next? Probing the Imaginative Reasoning of LLMs with TurtleSoup Puzzles
- Title(参考訳): 次から次へ問うべきこと : タートルソーププラグを用いたLLMの異種推論
- Authors: Mengtao Zhou, Sifan Wu, Huan Zhang, Qi Sima, Bang Liu,
- Abstract要約: TurtleSoup-Benchは、想像的推論のための、最初の大規模、バイリンガル、インタラクティブなベンチマークである。
また,この環境下でのLLMの性能を評価するための新しいエージェントであるMosaic-Agentを提案する。
- 参考スコア(独自算出の注目度): 26.90890466164784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the capacity of Large Language Models (LLMs) for imaginative reasoning--the proactive construction, testing, and revision of hypotheses in information-sparse environments. Existing benchmarks, often static or focused on social deduction, fail to capture the dynamic, exploratory nature of this reasoning process. To address this gap, we introduce a comprehensive research framework based on the classic "Turtle Soup" game, integrating a benchmark, an agent, and an evaluation protocol. We present TurtleSoup-Bench, the first large-scale, bilingual, interactive benchmark for imaginative reasoning, comprising 800 turtle soup puzzles sourced from both the Internet and expert authors. We also propose Mosaic-Agent, a novel agent designed to assess LLMs' performance in this setting. To evaluate reasoning quality, we develop a multi-dimensional protocol measuring logical consistency, detail completion, and conclusion alignment. Experiments with leading LLMs reveal clear capability limits, common failure patterns, and a significant performance gap compared to humans. Our work offers new insights into LLMs' imaginative reasoning and establishes a foundation for future research on exploratory agent behavior.
- Abstract(参考訳): 本研究では,情報共有環境における大規模言語モデル (LLM) の想像的推論能力について検討する。
既存のベンチマークは、しばしば静的または社会的推論に焦点を当てているが、この推論プロセスの動的で探索的な性質を捉えていない。
このギャップに対処するため,従来の"Turtle Soup"ゲームに基づいた総合的な研究フレームワークを導入し,ベンチマーク,エージェント,評価プロトコルを統合する。
本稿では,インターネットと専門家の両方から得られた800個のカメスープパズルからなる,想像的推論のための,最初の大規模,バイリンガル,インタラクティブなベンチマークであるTurtleSoup-Benchを紹介する。
また,この環境下でのLLMの性能を評価するための新しいエージェントであるMosaic-Agentを提案する。
推論品質を評価するため,論理的整合性,詳細補完性,結論整合性を測定する多次元プロトコルを開発した。
LLMを先導する実験では、能力限界、共通の障害パターン、人間に比べて大きなパフォーマンスギャップが明らかになっている。
我々の研究は、LLMの想像的推論に関する新たな洞察を提供し、将来の探索的エージェント行動研究の基礎を確立する。
関連論文リスト
- KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation [78.96590724864606]
我々はKOR-BenchとGymnasiumに触発された動的評価プラットフォームであるKORGym(Knowledge Orthogonal Reasoning Gymnasium)を紹介する。
KORGymはテキストまたはビジュアル形式で50以上のゲームを提供し、強化学習シナリオによるインタラクティブでマルチターンアセスメントをサポートする。
論文 参考訳(メタデータ) (2025-05-20T16:06:32Z) - Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。
論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。
本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:39:58Z) - Approximating Human Strategic Reasoning with LLM-Enhanced Recursive Reasoners Leveraging Multi-agent Hypergames [3.5083201638203154]
我々は、洗練された推論者に適したロールベースのマルチエージェント戦略相互作用フレームワークを実装した。
我々は,最新のLCMの推論能力を評価するために,ワンショット2プレーヤ美容コンテストを用いた。
実験の結果,人間行動の近似と最適解への到達の両面で,人工推論がベースラインモデルより優れていることがわかった。
論文 参考訳(メタデータ) (2025-02-11T10:37:20Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - Hypothetical Minds: Scaffolding Theory of Mind for Multi-Agent Tasks with Large Language Models [4.9108308035618515]
マルチエージェント強化学習(MARL)法はマルチエージェントシステムの非定常性に対処する。
ここでは、大きな言語モデル(LLM)を活用して、これらの課題に対処できる自律エージェントを作成します。
私たちのエージェントである仮説的マインドスは、認知にインスパイアされたアーキテクチャで構成されており、知覚、記憶、階層的な2段階の抽象化計画のためのモジュラーコンポーネントを備えています。
論文 参考訳(メタデータ) (2024-07-09T17:57:15Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。