Fugu-MT 論文翻訳(概要): SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

論文の概要: SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

arxiv url: http://arxiv.org/abs/2503.12349v1
Date: Sun, 16 Mar 2025 04:10:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.862996
Title: SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?
Title（参考訳）: SPIN-Bench: LLMは戦略的かつ社会的にどの程度うまく計画されているか?
Authors: Jianzhu Yao, Kevin Wang, Ryan Hsieh, Haisu Zhou, Tianqing Zou, Zerui Cheng, Zhangyang Wang, Pramod Viswanath,
Abstract要約: 反社会的相互作用における推論と戦略的行動は知性の目印である。 SPIN-Benchは,エフェストレージック計画とエフェストレージック推論の知性を測定するために設計された,新しいマルチドメイン評価である。
参考スコア（独自算出の注目度）: 44.33580437112677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning and strategic behavior in \emph{social interactions} is a hallmark of intelligence. This form of reasoning is significantly more sophisticated than isolated planning or reasoning tasks in static settings (e.g., math problem solving). In this paper, we present \textit{Strategic Planning, Interaction, and Negotiation} (\textbf{SPIN-Bench}), a new multi-domain evaluation designed to measure the intelligence of \emph{strategic planning} and \emph{social reasoning}. While many existing benchmarks focus on narrow planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks, competitive board games, cooperative card games, and multi-agent negotiation scenarios in one unified framework. The framework includes both a benchmark as well as an arena to simulate and evaluate the variety of social settings to test reasoning and strategic behavior of AI agents. We formulate the benchmark SPIN-Bench by systematically varying action spaces, state complexity, and the number of interacting agents to simulate a variety of social settings where success depends on not only methodical and step-wise decision making, but also \emph{conceptual inference} of other (adversarial or cooperative) participants. Our experiments reveal that while contemporary LLMs handle \emph{basic fact retrieval} and \emph{short-range planning} reasonably well, they encounter significant performance bottlenecks in tasks requiring \emph{deep multi-hop reasoning} over large state spaces and \emph{socially adept} coordination under uncertainty. We envision SPIN-Bench as a catalyst for future research on robust multi-agent planning, social reasoning, and human--AI teaming.
Abstract（参考訳）: emph{social interaction} における推論と戦略行動は知性の目印である。このような推論の形式は、静的な設定(例えば、数学の問題解決)における独立した計画や推論タスクよりもはるかに洗練されています。本稿では,<emph{strategic Planning} と \emph{strategic reasoning} のインテリジェンスを測定するために設計された,新しいマルチドメイン評価である \textit{Strategic Planning, Interaction, and Negotiation} (\textbf{SPIN-Bench})を提案する。多くの既存のベンチマークは狭い計画や単一エージェント推論に重点を置いているが、SPIN-Benchは古典的なPDDLタスク、競争的なボードゲーム、協調カードゲーム、マルチエージェントネゴシエーションシナリオを1つの統合フレームワークで組み合わせている。このフレームワークには、ベンチマークと、AIエージェントの推論と戦略的振る舞いをテストするためのさまざまな社会的設定をシミュレートし、評価するアリーナの両方が含まれている。我々は,SPIN-Benchベンチマークを,組織的に異なる行動空間,状態複雑性,対話エージェントの数によって定式化し,成功が組織的・段階的な意思決定だけでなく,他の(対人的・協力的な)参加者の「emph{conceptual inference}」にも依存する,様々な社会的設定をシミュレートする。実験の結果, 現代のLLMでは, 適切な処理が可能である一方で, 大規模状態空間上での 'emph{deep multi-hop reasoning' を必要とするタスクや不確実性下での 'emph{socially adept} 調整において, 顕著なパフォーマンスボトルネックが発生していることがわかった。我々は,SPIN-Benchを,堅牢なマルチエージェント計画,社会的推論,人間-AIコラボレーションの将来の研究の触媒として想定する。

関連論文リスト

S$^3$IT: A Benchmark for Spatially Situated Social Intelligence Test [26.79990069295221]
本稿では,具体的ソーシャルインテリジェンスを評価するために特別に設計されたベンチマークである空間決定型ソーシャルインテリジェンステスト(S$3$IT)を紹介する。エージェントは大規模な言語モデル駆動NPCのグループのために3D環境に座席を配置する必要がある。我々のフレームワークは、制御し難い広い多様なシナリオ空間を生成し、エージェントに活発な対話を通して好みを取得し、自律的な探索を通して環境を知覚し、複雑な制約ネットワーク内で多目的最適化を行うよう促す。
論文参考訳（メタデータ） (2025-12-23T02:36:56Z)
ParaCook: On Time-Efficient Planning for Multi-Agent Systems [62.471032881396496]
大規模言語モデル(LLM)は、長期の現実世界のタスクを計画するための強力な推論能力を示す。時間効率の協調計画のためのベンチマークであるParaCookを紹介する。
論文参考訳（メタデータ） (2025-10-13T16:47:07Z)
PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments [48.892997022500765]
PillagerBenchは、Minecraftのリアルタイムの競合チーム-vs-チームシナリオでマルチエージェントシステムを評価するフレームワークである。また,LLMベースのマルチエージェントシステムであるTactiCrafterを提案する。評価の結果、TactiCrafterはベースラインのアプローチよりも優れており、自己学習による適応学習を誇示している。
論文参考訳（メタデータ） (2025-09-07T22:51:12Z)
Seemingly Simple Planning Problems are Computationally Challenging: The Countdown Game [26.665033202052257]
本稿では,Countdownと呼ばれるゲームを中心とした計画ベンチマークを作成する手順を提案する。本稿では,この課題が,計画能力評価のための理想的なベンチマークと関連するデシラタの多くにどのように適合するかを論じる。その結果、24 Game(Countdownの特殊な場合)のような他の領域とは異なり、提案した動的ベンチマークは既存のLCMベースのアプローチでは極めて困難であることが判明した。
論文参考訳（メタデータ） (2025-08-04T21:01:03Z)
Cooperative Strategic Planning Enhances Reasoning Capabilities in Large Language Models [37.899581994741865]
本稿では,新しい協調型マルチエージェント推論フレームワーク(CoPlanner)を提案する。コプラナーは2つのLSMエージェント(計画エージェントと推論エージェント)から構成される。以上の結果から,計画エージェントからの指導とエージェント間の効果的な協力が,CoPlannerの優れた性能に寄与することが示唆された。
論文参考訳（メタデータ） (2024-10-25T23:32:48Z)
AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。我々はERG理論を用いて目標を分析し、包括的な実験を行う。以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-10-25T07:04:16Z)
ACPBench: Reasoning about Action, Change, and Planning [22.47015814897628]
ACPBenchは、計画分野における推論タスクを評価するためのベンチマークである。このコレクションは、形式言語で記述されたプランニングドメインから構築されている。
論文参考訳（メタデータ） (2024-10-08T03:48:57Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文参考訳（メタデータ） (2023-09-29T13:33:06Z)
Tree-of-Mixed-Thought: Combining Fast and Slow Thinking for Multi-hop Visual Reasoning [16.495754104540605]
大規模言語モデル(LLM)は、視覚的推論のような複雑な推論タスクのためのコードライクな計画を生成することができる。ワンストップ推論 (fast) とツリー・オブ・シント (slow) を統合した階層型計画探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-18T16:21:40Z)
AI planning in the imagination: High-level planning on learned abstract search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文参考訳（メタデータ） (2023-08-16T22:47:16Z)
PHASE: PHysically-grounded Abstract Social Events for Machine Social Perception [50.551003004553806]
私たちは、物理的に根拠のある抽象的なソーシャルイベント、フェーズのデータセットを作成します。フェーズは人間の実験によって検証され、人間は社会出来事において豊かな相互作用を知覚する。ベースラインモデルとして,最新のフィードフォワードニューラルネットワークよりも優れたベイズ逆計画手法SIMPLEを導入する。
論文参考訳（メタデータ） (2021-03-02T18:44:57Z)
Modelling Multi-Agent Epistemic Planning in ASP [66.76082318001976]
本稿では,マルチショット・アンサー・セット・プログラミング・ベース・プランナの実装について述べる。本稿は, アドホックなエピステミック状態表現とASPソルバの効率を生かしたプランナーが, 文献から収集したベンチマークに対して, 競合的な性能を示すことを示す。
論文参考訳（メタデータ） (2020-08-07T06:35:56Z)
Dynamic Multi-Robot Task Allocation under Uncertainty and Temporal Constraints [52.58352707495122]
本稿では,不確実性およびマルチエージェント協調の下での逐次意思決定における重要な計算課題を分離するマルチロボット割当アルゴリズムを提案する。都市におけるマルチアームコンベヤベルトピック・アンド・プレイスとマルチドローン配送ディスパッチの2つの異なる領域における広範囲なシミュレーション結果について検証を行った。
論文参考訳（メタデータ） (2020-05-27T01:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。