論文の概要: Does Spatial Cognition Emerge in Frontier Models?
- arxiv url: http://arxiv.org/abs/2410.06468v1
- Date: Wed, 9 Oct 2024 01:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:38:53.403770
- Title: Does Spatial Cognition Emerge in Frontier Models?
- Title(参考訳): 空間認知はフロンティアモデルに現れるか?
- Authors: Santhosh Kumar Ramakrishnan, Erik Wijmans, Philipp Kraehenbuehl, Vladlen Koltun,
- Abstract要約: 本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。
その結果、現代のフロンティアモデルは動物の空間知能に劣っていることが示唆された。
- 参考スコア(独自算出の注目度): 56.47912101304053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Not yet. We present SPACE, a benchmark that systematically evaluates spatial cognition in frontier models. Our benchmark builds on decades of research in cognitive science. It evaluates large-scale mapping abilities that are brought to bear when an organism traverses physical environments, smaller-scale reasoning about object shapes and layouts, and cognitive infrastructure such as spatial attention and memory. For many tasks, we instantiate parallel presentations via text and images, allowing us to benchmark both large language models and large multimodal models. Results suggest that contemporary frontier models fall short of the spatial intelligence of animals, performing near chance level on a number of classic tests of animal cognition.
- Abstract(参考訳): まだだ。
本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。
私たちのベンチマークは、認知科学における数十年の研究に基づいている。
生物が物理的環境を横切るときにもたらされる大規模なマッピング能力、物体の形状やレイアウトに関する小規模の推論、空間的注意や記憶などの認知的基盤を評価する。
多くのタスクにおいて、テキストと画像を介して並列プレゼンテーションをインスタンス化し、大きな言語モデルと大きなマルチモーダルモデルの両方をベンチマークすることができる。
その結果、現代のフロンティアモデルは動物の空間的知性に欠けており、動物認知の古典的なテストでほぼチャンスレベルに到達していることが示唆された。
関連論文リスト
- Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction [60.964512894143475]
本稿では,空間的局所化とビュー予測を共同で扱う新しい自動回帰フレームワークである生成空間変換器(GST)を提案する。
本モデルでは,カメラのポーズを1つの画像から同時に推定し,新しいカメラのポーズから視点を予測し,空間認識と視覚予測のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2024-10-24T17:58:05Z) - Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z) - The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T22:05:09Z) - Self-supervised Secondary Landmark Detection via 3D Representation
Learning [13.157012771922801]
本研究では,3次元空間における一次ランドマークと二次ランドマークの空間的関係を学習する手法を提案する。
この学習は、マカク、ハエ、人間を含む多様な生物の様々なマルチビュー設定に適用することができる。
論文 参考訳(メタデータ) (2021-10-01T17:15:47Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。