Fugu-MT 論文翻訳(概要): Does Spatial Cognition Emerge in Frontier Models?

論文の概要: Does Spatial Cognition Emerge in Frontier Models?

arxiv url: http://arxiv.org/abs/2410.06468v1
Date: Wed, 9 Oct 2024 01:41:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 05:38:53.403770
Title: Does Spatial Cognition Emerge in Frontier Models?
Title（参考訳）: 空間認知はフロンティアモデルに現れるか?
Authors: Santhosh Kumar Ramakrishnan, Erik Wijmans, Philipp Kraehenbuehl, Vladlen Koltun,
Abstract要約: 本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。その結果、現代のフロンティアモデルは動物の空間知能に劣っていることが示唆された。
参考スコア（独自算出の注目度）: 56.47912101304053
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Not yet. We present SPACE, a benchmark that systematically evaluates spatial cognition in frontier models. Our benchmark builds on decades of research in cognitive science. It evaluates large-scale mapping abilities that are brought to bear when an organism traverses physical environments, smaller-scale reasoning about object shapes and layouts, and cognitive infrastructure such as spatial attention and memory. For many tasks, we instantiate parallel presentations via text and images, allowing us to benchmark both large language models and large multimodal models. Results suggest that contemporary frontier models fall short of the spatial intelligence of animals, performing near chance level on a number of classic tests of animal cognition.
Abstract（参考訳）: まだだ。本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。私たちのベンチマークは、認知科学における数十年の研究に基づいている。生物が物理的環境を横切るときにもたらされる大規模なマッピング能力、物体の形状やレイアウトに関する小規模の推論、空間的注意や記憶などの認知的基盤を評価する。多くのタスクにおいて、テキストと画像を介して並列プレゼンテーションをインスタンス化し、大きな言語モデルと大きなマルチモーダルモデルの両方をベンチマークすることができる。その結果、現代のフロンティアモデルは動物の空間的知性に欠けており、動物認知の古典的なテストでほぼチャンスレベルに到達していることが示唆された。

関連論文リスト

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning [19.549136366694572]
Video2は、ビデオからメートル法で配置された空間レイアウトを再構築するためのフレームワークである。このフレームワークは、オブジェクト間の物理サイズとオブジェクトサイズを定量化するために、連続的なオブジェクト境界座標を使用する。我々のモデルであるV2LO-7Bは、グリッドマップで訓練されたモデルよりも平均4.92%向上した。
論文参考訳（メタデータ） (2025-11-20T08:57:14Z)
Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文参考訳（メタデータ） (2025-10-29T17:55:43Z)
Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks [9.23437069873238]
本稿では,空間的関係理解のためのオープンソースのコントラスト付きVLMベンチマークを提案する。 RocketScienceは完全に新しい現実世界の画像テキストペアで構成されている。その結果,オープンソースおよびフロンティア商用VLMにおける空間的関係理解の欠如が示唆された。
論文参考訳（メタデータ） (2025-09-02T10:32:58Z)
LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文参考訳（メタデータ） (2025-07-27T08:31:24Z)
SURPRISE3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes [105.8644620467576]
Stextscurprise3Dは複雑な3次元シーンにおける言語誘導空間推論のセグメンテーションを評価するために設計された新しいデータセットである。 Stextscurprise3Dは、ScanNet++ v2から900以上の詳細な屋内シーンにわたる200k以上の視覚言語ペアで構成されている。データセットには、オブジェクト名なしで意図的に作成される89k以上の人間アノテーション付き空間クエリが含まれている。
論文参考訳（メタデータ） (2025-07-10T14:01:24Z)
PlanQA: A Benchmark for Spatial Reasoning in LLMs using Structured Representations [75.04864582433879]
PlanQAは、大規模言語モデルにおける幾何学的および空間的推論を評価するための診断ベンチマークである。このベンチマークでは、計量やトポロジカルな推論だけでなく、内部設計の制約もテストする多様な質問タイプが明らかになった。
論文参考訳（メタデータ） (2025-07-10T11:16:48Z)
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文参考訳（メタデータ） (2025-03-25T14:34:06Z)
Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。 GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文参考訳（メタデータ） (2025-02-23T04:21:32Z)
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。 MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文参考訳（メタデータ） (2024-12-18T18:59:54Z)
SPHERE: Unveiling Spatial Blind Spots in Vision-Language Models Through Hierarchical Evaluation [7.659514491338669]
現在の視覚言語モデルは、基本的な空間的手がかりを把握できるが、人間のような理解や現実世界の応用に必要な多次元空間的推論に苦慮している。我々は,新しい人間注釈付きデータセットをサポートする階層的評価フレームワークであるSPHEREを開発した。最先端モデルのベンチマーク評価では、特に距離と近接性についての推論において、重大な欠陥が示される。
論文参考訳（メタデータ） (2024-12-17T09:10:55Z)
Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文参考訳（メタデータ） (2024-10-24T17:58:05Z)
Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文参考訳（メタデータ） (2024-02-01T19:25:50Z)
Neural feels with neural fields: Visuo-tactile perception for in-hand manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文参考訳（メタデータ） (2023-12-20T22:36:37Z)
What's "up" with vision-language models? Investigating their struggle with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文参考訳（メタデータ） (2023-10-30T17:50:15Z)
Generative Models as a Complex Systems Science: How can we make sense of large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文参考訳（メタデータ） (2023-07-31T22:58:41Z)
Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文参考訳（メタデータ） (2023-06-06T18:00:01Z)
Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities [54.26896306906937]
我々はOVEN-Wikiを提示する。そこでは、テキストクエリに関して、モデルをウィキペディアのエンティティにリンクする必要がある。私たちは、微調整中に見たことのないWikipediaのエンティティでも、PaLIベースの自動回帰視覚認識モデルが驚くほどうまく機能していることを示します。 PaLIベースのモデルでは全体的なパフォーマンスが向上するが、CLIPベースのモデルはテールエンティティを認識するのに優れている。
論文参考訳（メタデータ） (2023-02-22T05:31:26Z)
Things not Written in Text: Exploring Spatial Commonsense from Visual Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文参考訳（メタデータ） (2022-03-15T17:02:30Z)
The Right Spin: Learning Object Motion from Rotation-Compensated Flow Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文参考訳（メタデータ） (2022-02-28T22:05:09Z)
Self-supervised Secondary Landmark Detection via 3D Representation Learning [13.157012771922801]
本研究では,3次元空間における一次ランドマークと二次ランドマークの空間的関係を学習する手法を提案する。この学習は、マカク、ハエ、人間を含む多様な生物の様々なマルチビュー設定に適用することができる。
論文参考訳（メタデータ） (2021-10-01T17:15:47Z)
VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文参考訳（メタデータ） (2020-05-04T16:16:58Z)
Sparse Graphical Memory for Robust Planning [93.39298821537197]
スパースメモリに状態と実現可能な遷移を格納する新しいデータ構造であるスパースグラフィカルメモリ(SGM)を導入する。 SGMは、ゴール条件付きRLに古典的状態集約基準を適用し、新しい双方向整合目標に従って状態を集約する。本研究では, SGM が, 遠近法, スパース・リワード視覚ナビゲーションタスクにおいて, 最先端の工法を著しく上回っていることを示す。
論文参考訳（メタデータ） (2020-03-13T17:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。