論文の概要: Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning
- arxiv url: http://arxiv.org/abs/2405.15064v1
- Date: Thu, 23 May 2024 21:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:57:45.420693
- Title: Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning
- Title(参考訳): 言語モデルにおける空間推論評価:質的推論のための実世界シミュレーションベンチマーク
- Authors: Fangjun Li, David C. Hogg, Anthony G. Cohn,
- Abstract要約: 言語モデル(LM)における空間推論評価のための新しいベンチマークを提案する。
現実的な3Dシミュレーションデータに基づいており、様々なオブジェクトとそれらの空間的関係を持つ一連の多様な部屋レイアウトを提供する。
重要なコントリビューションは、論理ベースの一貫性チェックツールです。
- 参考スコア(独自算出の注目度): 4.422649561583363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning plays a vital role in both human cognition and machine intelligence, prompting new research into language models' (LMs) capabilities in this regard. However, existing benchmarks reveal shortcomings in evaluating qualitative spatial reasoning (QSR). These benchmarks typically present oversimplified scenarios or unclear natural language descriptions, hindering effective evaluation. We present a novel benchmark for assessing QSR in LMs, which is grounded in realistic 3D simulation data, offering a series of diverse room layouts with various objects and their spatial relationships. This approach provides a more detailed and context-rich narrative for spatial reasoning evaluation, diverging from traditional, toy-task-oriented scenarios. Our benchmark encompasses a broad spectrum of qualitative spatial relationships, including topological, directional, and distance relations. These are presented with different viewing points, varied granularities, and density of relation constraints to mimic real-world complexities. A key contribution is our logic-based consistency-checking tool, which enables the assessment of multiple plausible solutions, aligning with real-world scenarios where spatial relationships are often open to interpretation. Our benchmark evaluation of advanced LMs reveals their strengths and limitations in spatial reasoning. They face difficulties with multi-hop spatial reasoning and interpreting a mix of different view descriptions, pointing to areas for future improvement.
- Abstract(参考訳): 空間推論は人間の認知とマシンインテリジェンスの両方において重要な役割を担い、この点において言語モデルの能力(LM)に関する新たな研究を促している。
しかし、既存のベンチマークでは質的空間推論(QSR)の評価の欠点が明らかになっている。
これらのベンチマークは通常、過度に単純化されたシナリオや不明瞭な自然言語の記述を示し、効果的な評価を妨げる。
本稿では,現実的な3次元シミュレーションデータに基づいて,様々なオブジェクトと空間的関係を持つ様々な部屋レイアウトを提供する,LMにおけるQSR評価のための新しいベンチマークを提案する。
このアプローチは、従来のトイタスク指向のシナリオから切り離された空間的推論評価のために、より詳細でコンテキストに富んだ物語を提供する。
我々のベンチマークは、位相的、方向的、距離的関係を含む、定性的空間関係の幅広いスペクトルを含んでいる。
これらは異なる視点、様々な粒度、および実世界の複雑さを模倣する関係制約の密度で示される。
鍵となる貢献は論理ベースの整合性チェックツールであり、空間的関係が解釈に開放されることの多い現実のシナリオと整合して、複数のプラウチブルなソリューションの評価を可能にする。
先進的なLMのベンチマーク評価により,空間的推論の強度と限界が明らかになった。
それらは、マルチホップ空間推論と様々なビュー記述の混合を解釈することの難しさに直面し、将来の改善の領域を指し示している。
関連論文リスト
- Exploring Spatial Language Grounding Through Referring Expressions [17.524558622186657]
視覚言語モデル(VLM)による空間推論評価のためのプラットフォームとして参照表現タスクを提案する。
このプラットフォームは,1)対象検出の曖昧さ,2)より長い文構造と複数の空間関係を持つ複雑な空間表現,3)否定を伴う表現("not")について,空間的理解と接地能力のより深い分析を行う機会を提供する。
本研究は,これらの課題と行動に注目し,研究のギャップと今後の方向性について考察する。
論文 参考訳(メタデータ) (2025-02-04T22:58:15Z) - SpatialCoT: Advancing Spatial Reasoning through Coordinate Alignment and Chain-of-Thought for Embodied Task Planning [42.487500113839666]
視覚言語モデル(VLM)の空間的推論能力を高める新しい手法を提案する。
提案手法は,空間座標二方向アライメントとチェーン・オブ・ザ・スペース・グラウンドリングの2段階からなる。
シミュレーションと実環境設定の両方において,ナビゲーションタスクと操作タスクに挑戦する手法を評価する。
論文 参考訳(メタデータ) (2025-01-17T09:46:27Z) - SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。
我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。
最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
これらの結果は、既存のモデルにおいて重要な盲点を明らかにし、より高度な空間推論技術の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-12-17T09:10:55Z) - Combining Observational Data and Language for Species Range Estimation [63.65684199946094]
我々は,数百万の市民科学種の観察とウィキペディアのテキスト記述を組み合わせた新しいアプローチを提案する。
我々のフレームワークは、場所、種、テキスト記述を共通空間にマッピングし、テキスト記述からゼロショット範囲の推定を可能にする。
また,本手法は観測データと組み合わせることで,少ないデータでより正確な距離推定を行うことができる。
論文 参考訳(メタデータ) (2024-10-14T17:22:55Z) - GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs [3.2688425993442696]
画像中の物体間の空間的関係を理解する能力は、視覚的推論の重要な構成要素である。
我々は、以前リリースされたWhat'sUpデータセットを拡張し、空間関係理解のための新しい包括的評価を提案する。
論文 参考訳(メタデータ) (2024-06-19T06:15:26Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Spatial Language Understanding for Object Search in Partially Observed
Cityscale Environments [21.528770932332474]
空間言語観測空間を導入し、部分観測可能なマルコフ決定プロセス(POMDP)の枠組みの下でモデルを定式化する。
本稿では,言語提供者の参照の相対的フレーム(FoR)の環境コンテキストを予測する畳み込みニューラルネットワークモデルを提案する。
本稿では,FOR予測モデルとオブジェクト探索システムの一般化可能性を示す。
論文 参考訳(メタデータ) (2020-12-04T16:27:59Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。