Fugu-MT 論文翻訳(概要): Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning

論文の概要: Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning

arxiv url: http://arxiv.org/abs/2405.15064v1
Date: Thu, 23 May 2024 21:22:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-27 18:57:45.420693
Title: Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning
Title（参考訳）: 言語モデルにおける空間推論評価:質的推論のための実世界シミュレーションベンチマーク
Authors: Fangjun Li, David C. Hogg, Anthony G. Cohn,
Abstract要約: 言語モデル(LM)における空間推論評価のための新しいベンチマークを提案する。現実的な3Dシミュレーションデータに基づいており、様々なオブジェクトとそれらの空間的関係を持つ一連の多様な部屋レイアウトを提供する。重要なコントリビューションは、論理ベースの一貫性チェックツールです。
参考スコア（独自算出の注目度）: 4.422649561583363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spatial reasoning plays a vital role in both human cognition and machine intelligence, prompting new research into language models' (LMs) capabilities in this regard. However, existing benchmarks reveal shortcomings in evaluating qualitative spatial reasoning (QSR). These benchmarks typically present oversimplified scenarios or unclear natural language descriptions, hindering effective evaluation. We present a novel benchmark for assessing QSR in LMs, which is grounded in realistic 3D simulation data, offering a series of diverse room layouts with various objects and their spatial relationships. This approach provides a more detailed and context-rich narrative for spatial reasoning evaluation, diverging from traditional, toy-task-oriented scenarios. Our benchmark encompasses a broad spectrum of qualitative spatial relationships, including topological, directional, and distance relations. These are presented with different viewing points, varied granularities, and density of relation constraints to mimic real-world complexities. A key contribution is our logic-based consistency-checking tool, which enables the assessment of multiple plausible solutions, aligning with real-world scenarios where spatial relationships are often open to interpretation. Our benchmark evaluation of advanced LMs reveals their strengths and limitations in spatial reasoning. They face difficulties with multi-hop spatial reasoning and interpreting a mix of different view descriptions, pointing to areas for future improvement.
Abstract（参考訳）: 空間推論は人間の認知とマシンインテリジェンスの両方において重要な役割を担い、この点において言語モデルの能力(LM)に関する新たな研究を促している。しかし、既存のベンチマークでは質的空間推論(QSR)の評価の欠点が明らかになっている。これらのベンチマークは通常、過度に単純化されたシナリオや不明瞭な自然言語の記述を示し、効果的な評価を妨げる。本稿では,現実的な3次元シミュレーションデータに基づいて,様々なオブジェクトと空間的関係を持つ様々な部屋レイアウトを提供する,LMにおけるQSR評価のための新しいベンチマークを提案する。このアプローチは、従来のトイタスク指向のシナリオから切り離された空間的推論評価のために、より詳細でコンテキストに富んだ物語を提供する。我々のベンチマークは、位相的、方向的、距離的関係を含む、定性的空間関係の幅広いスペクトルを含んでいる。これらは異なる視点、様々な粒度、および実世界の複雑さを模倣する関係制約の密度で示される。鍵となる貢献は論理ベースの整合性チェックツールであり、空間的関係が解釈に開放されることの多い現実のシナリオと整合して、複数のプラウチブルなソリューションの評価を可能にする。先進的なLMのベンチマーク評価により,空間的推論の強度と限界が明らかになった。それらは、マルチホップ空間推論と様々なビュー記述の混合を解釈することの難しさに直面し、将来の改善の領域を指し示している。

関連論文リスト

A Call for New Recipes to Enhance Spatial Reasoning in MLLMs [85.67171333213301]
MLLM(Multimodal Large Language Models)は、一般的な視覚言語タスクにおいて印象的な性能を示す。近年の研究では、空間的推論能力の限界が明らかにされている。この空間的推論の欠如は、MLLMが物理的世界と効果的に相互作用する能力を著しく制限する。
論文参考訳（メタデータ） (2025-04-21T11:48:39Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models [10.792834356227118]
VLM(Vision-Language Models)は、オブジェクトの識別と記述が優れているが、空間的推論に苦慮している。人間の視覚のデュアルパスウェイモデルに触発されて,強い物体認識能力にもかかわらず,VLMが空間的タスクに失敗する理由を考察した。
論文参考訳（メタデータ） (2025-03-21T17:51:14Z)
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文参考訳（メタデータ） (2025-03-14T05:06:07Z)
Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文参考訳（メタデータ） (2025-03-03T17:57:03Z)
SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文参考訳（メタデータ） (2024-12-17T09:10:55Z)
Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities [27.940469021840745]
視覚言語モデル(VLM)の空間的推論能力を評価するための評価プロトコルを提案する。あいまいさを解消する英語の慣行と幾らかの整合性があるにもかかわらず、本実験はVLMの重大な欠点を明らかにした。視覚言語モデルと人間の認知的直感の整合化を図りつつ、我々は空間的推論のあいまいさと文化的な多様性により多くの注意を払っている。
論文参考訳（メタデータ） (2024-10-22T19:39:15Z)
Combining Observational Data and Language for Species Range Estimation [63.65684199946094]
我々は,数百万の市民科学種の観察とウィキペディアのテキスト記述を組み合わせた新しいアプローチを提案する。我々のフレームワークは、場所、種、テキスト記述を共通空間にマッピングし、テキスト記述からゼロショット範囲の推定を可能にする。また,本手法は観測データと組み合わせることで,少ないデータでより正確な距離推定を行うことができる。
論文参考訳（メタデータ） (2024-10-14T17:22:55Z)
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文参考訳（メタデータ） (2024-06-19T06:15:26Z)
SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は生物学的と人工知能の両方において重要な要素です本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文参考訳（メタデータ） (2024-06-07T01:06:34Z)
Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。提案手法は,より空間的な文脈を維持するために表現を導くことができる。 VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-09T11:54:55Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文参考訳（メタデータ） (2023-05-12T00:13:17Z)
Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文参考訳（メタデータ） (2022-12-20T06:03:51Z)
Spatial Language Understanding for Object Search in Partially Observed Cityscale Environments [21.528770932332474]
空間言語観測空間を導入し、部分観測可能なマルコフ決定プロセス(POMDP)の枠組みの下でモデルを定式化する。本稿では,言語提供者の参照の相対的フレーム(FoR)の環境コンテキストを予測する畳み込みニューラルネットワークモデルを提案する。本稿では,FOR予測モデルとオブジェクト探索システムの一般化可能性を示す。
論文参考訳（メタデータ） (2020-12-04T16:27:59Z)
Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文参考訳（メタデータ） (2020-06-12T09:37:24Z)
Robust and Interpretable Grounding of Spatial References with Relation Networks [40.42540299023808]
自然言語による空間参照の表現を学習することは、自律的なナビゲーションやロボット操作といったタスクにおいて重要な課題である。近年,空間概念のマルチモーダル表現を学習するための様々なニューラルアーキテクチャが研究されている。我々は、頑健で解釈可能なテキストにおける空間参照を理解するための効果的なモデルを開発する。
論文参考訳（メタデータ） (2020-05-02T04:11:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。