Fugu-MT 論文翻訳(概要): GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning

論文の概要: GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning

arxiv url: http://arxiv.org/abs/2407.01892v1
Date: Tue, 2 Jul 2024 02:27:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 17:03:34.745246
Title: GRASP: A Grid-Based Benchmark for Evaluating Commonsense Spatial Reasoning
Title（参考訳）: GRASP:コモンセンス空間推論を評価するためのグリッドベースのベンチマーク
Authors: Zhisheng Tang, Mayank Kejriwal,
Abstract要約: 空間的推論は、純粋に言語ベースのものではなく、計画の最低限の程度を必要とする、中核的な常識スキルの1つである。既存のCSR(Commonsense Spatial Reasoning)ベンチマークでは、Large Language Models(LLM)がテキストベースの空間記述をどのように解釈するかを評価する傾向にある。我々は、エージェントがエネルギー収集問題に対処する16,000のグリッドベースの環境からなる、$textbfGRASP$という大規模なベンチマークを構築した。
参考スコア（独自算出の注目度）: 2.9312156642007294
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Spatial reasoning, an important faculty of human cognition with many practical applications, is one of the core commonsense skills that is not purely language-based and, for satisfying (as opposed to optimal) solutions, requires some minimum degree of planning. Existing benchmarks of Commonsense Spatial Reasoning (CSR) tend to evaluate how Large Language Models (LLMs) interpret text-based spatial descriptions rather than directly evaluate a plan produced by the LLM in response to a spatial reasoning scenario. In this paper, we construct a large-scale benchmark called $\textbf{GRASP}$, which consists of 16,000 grid-based environments where the agent is tasked with an energy collection problem. These environments include 100 grid instances instantiated using each of the 160 different grid settings, involving five different energy distributions, two modes of agent starting position, and two distinct obstacle configurations, as well as three kinds of agent constraints. Using GRASP, we compare classic baseline approaches, such as random walk and greedy search methods, with advanced LLMs like GPT-3.5-Turbo and GPT-4o. The experimental results indicate that even these advanced LLMs struggle to consistently achieve satisfactory solutions.
Abstract（参考訳）: 空間的推論は、人間の認識の重要な学部であり、多くの実践的応用があるが、純粋に言語に基づくものではなく、(最適ではなく)ソリューションを満たすためには、ある程度の計画段階を必要とする、中核的なコモンセンススキルの1つである。既存のCSR(Commonsense Space Reasoning)のベンチマークでは、LLMの計画を直接評価するのではなく、LLM(Large Language Models)がテキストベースの空間記述をどのように解釈するかを評価する傾向にある。本稿では,エージェントがエネルギー収集問題に対処する16,000のグリッド環境からなる,$\textbf{GRASP}$という大規模ベンチマークを構築した。これらの環境には、160の異なるグリッド設定のそれぞれを使用してインスタンス化された100のグリッドインスタンスが含まれており、5つの異なるエネルギー分布、2つのエージェント開始位置、2つの異なる障害設定、および3種類のエージェント制約を含んでいる。 GPT-3.5-Turbo や GPT-4o といった高度な LLM と比較した。実験結果から, これらの先進LLMでさえ, 常に満足な解を達成できないことが示唆された。

関連論文リスト

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning [106.98018881499362]
GEPA(Genetic-Pareto)は、自然言語を徹底的に組み込んで、試行錯誤から高度なルールを学ぶプロンプトである。 GEPAはシステムレベルの軌跡(推論、ツールコール、ツールアウトプットなど)をサンプリングし、自然言語でそれらを反映して問題を診断する。ほんの数回だけロールアウトしても、大きな品質向上に繋がることが多い。
論文参考訳（メタデータ） (2025-07-25T17:42:32Z)
Towards Efficient Multi-LLM Inference: Characterization and Analysis of LLM Routing and Hierarchical Techniques [14.892995952768352]
言語モデル(LM)は、テキスト生成、要約、質問応答といったタスクに優れています。彼らの推論は計算コストが高く、ハードウェア、電力、帯域幅に制限のある設定でエネルギーを集中的に消費する。近年のアプローチでは、クエリの複雑さに基づいて、動的に計算資源を割り当てる複数のLLMインテリジェントモデル選択戦略が導入されている。
論文参考訳（メタデータ） (2025-06-06T23:13:08Z)
Code-Driven Planning in Grid Worlds with Large Language Models [2.6080756513915824]
コードで表現された解釈可能なエージェントポリシーを合成することにより,グリッドベースのタスクを解決するための反復的プログラム計画フレームワークを提案する。従来の検索や強化学習に頼るのではなく、コード生成をポリシー合成として使用しています。
論文参考訳（メタデータ） (2025-05-15T23:23:31Z)
SegEarth-R1: Geospatial Pixel Reasoning via Large Language Model [61.97017867656831]
暗黙的な問合せと推論を可能にし,対象領域のマスクを生成する新しいタスク,すなわち地理空間的画素推論を導入する。我々は,5,434枚の手動アノテート画像マスクと3万枚以上の暗黙的な質問応答ペアからなる,EarthReasonという,最初の大規模ベンチマークデータセットを構築し,リリースする。 SegEarth-R1は、推論タスクと参照セグメンテーションタスクの両方で最先端のパフォーマンスを実現し、従来のLCMベースのセグメンテーション手法よりも大幅に優れている。
論文参考訳（メタデータ） (2025-04-13T16:36:47Z)
GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文参考訳（メタデータ） (2025-03-23T16:20:14Z)
Aligning Multimodal LLM with Human Preference: A Survey [62.89722942008262]
大規模言語モデル(LLM)は、タスク固有のトレーニングを必要とせずに、単純なプロンプトで幅広い汎用タスクを処理できる。 MLLM(Multimodal Large Language Models)は、視覚的、聴覚的、テキスト的データを含む複雑なタスクに対処する大きな可能性を実証している。しかし、真理性、安全性、o1のような推論、および人間の嗜好との整合性に関する重要な問題は未解決のままである。
論文参考訳（メタデータ） (2025-03-18T17:59:56Z)
Boosting Multimodal Reasoning with Automated Structured Thinking [24.845193791363346]
AStarは、Monte Carlo Tree Searchを使用して500以前のサンプルから抽象化された、ハイレベルな推論パターンの軽量ライブラリである。各テスト問題に対して、AStarは最適な思考カードを適応的に取り出し、これらの外部的明示的ガイドラインをモデルの内部の暗黙的推論能力とシームレスに統合する。
論文参考訳（メタデータ） (2025-02-04T14:18:29Z)
SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。 nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文参考訳（メタデータ） (2024-11-20T08:14:01Z)
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文参考訳（メタデータ） (2024-10-28T18:10:26Z)
Optimizing Large Language Models for Dynamic Constraints through Human-in-the-Loop Discriminators [0.0]
大規模言語モデル(LLM)は、最近、様々な現実世界のアプリケーションにまたがる印象的な機能を実証した。本稿では,LLMがシステムインターフェースと相互作用し,制約概念を要約し,性能指標を継続的に最適化するフレキシブルなフレームワークを提案する。我々のフレームワークは、人間の識別器で7.78%のパスレート、LSMベースの識別器で6.11%のパスレートを達成した。
論文参考訳（メタデータ） (2024-10-19T17:27:38Z)
Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。 LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文参考訳（メタデータ） (2024-10-11T08:54:45Z)
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文参考訳（メタデータ） (2024-09-30T03:58:43Z)
CHESS: Contextual Harnessing for Efficient SQL Synthesis [1.9506402593665235]
効率的でスケーラブルなテキスト・ツー・クエリのためのフレームワークであるCHESSを紹介します。特殊エージェントは4つあり、それぞれが上記の課題の1つをターゲットにしている。私たちのフレームワークは、さまざまなデプロイメント制約に適応する機能を提供する。
論文参考訳（メタデータ） (2024-05-27T01:54:16Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
GroundCocoa: A Benchmark for Evaluating Compositional & Conditional Reasoning in Language Models [14.108788704400643]
GroundCocoa(グラウンドココア)は、これらの推論スキルをフライト予約の現実的な問題に結びつける、語彙的に多様なベンチマークである。私たちのタスクは、詳細なユーザの好みと、複数の選択形式で提示される利用可能なフライトオプションを整合させることです。 GPT-4 Turboは, 先進的なプロンプト技術にもかかわらず精度が67%を超えなかった。
論文参考訳（メタデータ） (2024-04-05T17:36:26Z)
Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。 Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文参考訳（メタデータ） (2024-04-02T16:25:30Z)
StrategyLLM: Large Language Models as Strategy Generators, Executors, Optimizers, and Evaluators for Problem Solving [76.5322280307861]
StrategyLLM は LLM が帰納的推論、特定のタスクインスタンスからの一般的な戦略の導出、帰納的推論を可能にし、これらの一般的な戦略を特定のタスク例に適用し、一般化可能で一貫した数発のプロンプトを構築する。実験の結果、StrategyLLMは、数学推論(34.2%$rightarrow$38.8%)、コモンセンス推論(70.3%$rightarrow$72.5%)、アルゴリズム推論(73.7%$rightarrow$85.0)を含む、4つの難しいタスクにまたがる13のデータセットに対して、人間によるアノテートソリューションを必要とする競争ベースラインのCoT-SCよりも優れていることが示された。
論文参考訳（メタデータ） (2023-11-15T09:18:09Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Integrating LLMs and Decision Transformers for Language Grounded Generative Quality-Diversity [0.0]
品質多様性(Quality-Diversity)は最適化の一分野であり、強化学習と制御ドメインの問題によく適用される。本稿では,レパートリーをトラジェクトリの自然言語記述で拡張する大規模言語モデルを提案する。また、このような生成エージェントの性能を評価するためのLCMベースのアプローチを提案する。
論文参考訳（メタデータ） (2023-08-25T10:00:06Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)
Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning [11.91425153754564]
高いマルチモーダルな報酬ランドスケープ、価値分解、パラメータ共有が問題になり、望ましくない結果をもたらす可能性があることを示す。対照的に、個々のポリシーを持つポリシー勾配(PG)法は、これらの場合において最適解に確実に収束する。本稿では,多エージェントPGアルゴリズムの実装に関する実践的提案を行う。
論文参考訳（メタデータ） (2022-06-15T13:03:05Z)
Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning [14.663216851932646]
言語モデルは1ステップの推論タスクでかなりうまく機能する傾向があるが、より複雑な問題を解決するために複数の推論ステップをチェーン化するのに苦労している。本稿では,事前学習したLLMを汎用処理モジュールとして活用する選択推論(SI)フレームワークを提案する。 5ショットの一般化設定でSIフレームワーク内で使用する 7B パラメータ LLM が微調整なしで,100% 以上の性能向上が得られることを示す。
論文参考訳（メタデータ） (2022-05-19T17:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。