論文の概要: SAT: Spatial Aptitude Training for Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2412.07755v1
- Date: Tue, 10 Dec 2024 18:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 22:09:45.474806
- Title: SAT: Spatial Aptitude Training for Multimodal Language Models
- Title(参考訳): SAT:マルチモーダル言語モデルのための空間的適性トレーニング
- Authors: Arijit Ray, Jiafei Duan, Reuben Tan, Dina Bashkirova, Rose Hendrix, Kiana Ehsani, Aniruddha Kembhavi, Bryan A. Plummer, Ranjay Krishna, Kuo-Hao Zeng, Kate Saenko,
- Abstract要約: 本研究では,空間知能を向上させるためにSAT,空間適性トレーニングを導入する。
SATには、トレーニングとテストセット全体で22Kの合成シーンのための218Kの質問応答ペアが含まれている。
SAT命令チューニングデータは,SAT上での動的空間推論だけでなく,既存の実画像空間ベンチマーク上でのゼロショット性能も向上することを示す。
- 参考スコア(独自算出の注目度): 77.47422592453614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial perception is a fundamental component of intelligence. While many studies highlight that large multimodal language models (MLMs) struggle to reason about space, they only test for static spatial reasoning, such as categorizing the relative positions of objects. Meanwhile, real-world deployment requires dynamic capabilities like perspective-taking and egocentric action recognition. As a roadmap to improving spatial intelligence, we introduce SAT, Spatial Aptitude Training, which goes beyond static relative object position questions to the more dynamic tasks. SAT contains 218K question-answer pairs for 22K synthetic scenes across a training and testing set. Generated using a photo-realistic physics engine, our dataset can be arbitrarily scaled and easily extended to new actions, scenes, and 3D assets. We find that even MLMs that perform relatively well on static questions struggle to accurately answer dynamic spatial questions. Further, we show that SAT instruction-tuning data improves not only dynamic spatial reasoning on SAT, but also zero-shot performance on existing real-image spatial benchmarks: $23\%$ on CVBench, $8\%$ on the harder BLINK benchmark, and $18\%$ on VSR. When instruction-tuned on SAT, our 13B model matches larger proprietary MLMs like GPT4-V and Gemini-3-1.0 in spatial reasoning. Our data/code is available at http://arijitray1993.github.io/SAT/ .
- Abstract(参考訳): 空間知覚は知性の基本的な構成要素である。
多くの研究は、大きなマルチモーダル言語モデル(MLM)が空間についての推論に苦労していることを強調しているが、それらはオブジェクトの相対的な位置の分類のような静的な空間的推論のためにのみテストする。
一方、現実世界のデプロイメントには、パースペクティブテイキングやエゴセントリックなアクション認識のような動的な機能が必要です。
空間知性向上のロードマップとして,静的な相対的対象位置問題から,よりダイナミックなタスクへと向かうSAT,空間適性トレーニングを導入する。
SATには、トレーニングとテストセット全体で22Kの合成シーンのための218Kの質問応答ペアが含まれている。
フォトリアリスティックな物理エンジンを使って生成されたデータセットは、任意のスケールで、新しいアクションやシーン、そして3Dアセットに簡単に拡張できます。
静的な質問に対して比較的よく機能するMLMでさえ、動的空間的な質問に正確に答えるのに苦労していることがわかった。
さらに、SAT命令チューニングデータにより、SAT上の動的空間推論だけでなく、既存の実画像空間ベンチマーク上でのゼロショット性能も向上することを示し、CVBench上では23\%、より硬いBLINKベンチマークでは8\%、VSR上では18\%である。
SAT上での命令チューニングでは,空間的推論において GPT4-V や Gemini-3-1.0 のような大型の MLM と一致する。
私たちのデータ/コードはhttp://arijitray1993.github.io/SAT/で利用可能です。
関連論文リスト
- Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding [25.32283897448209]
DynamicVisはリモートセンシング画像のための動的視覚認識基盤モデルである。
選択状態空間モデルに基づく新しい動的領域知覚バックボーンを統合する。
97msのレイテンシ(ViTの6%)と833MBのGPUメモリ(ViTの3%)を備えた処理(2048x2048)ピクセルのマルチレベルの特徴モデリングを実現している。
論文 参考訳(メタデータ) (2025-03-20T17:59:54Z) - Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文 参考訳(メタデータ) (2024-12-18T18:59:54Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse
Sensors [69.75711933065378]
ヘッドセットとコントローラーのポーズは,高度に制約された環境においても,現実的なフルボディのポーズを生成可能であることを示す。
本稿では,環境表現,接触報酬,シーンランダム化の3つの特徴について論じる。
論文 参考訳(メタデータ) (2023-06-09T04:40:38Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - W2SAT: Learning to generate SAT instances from Weighted Literal Incidence Graphs [11.139131079925113]
W2SATは、現実世界/産業インスタンスから固有の構造と特性を学ぶことによってSAT式を生成するフレームワークである。
Weighted Literal Incidence Graph (WLIG)と呼ばれる新しいSAT表現を導入する。
WLIGからSAT問題への復号化は、新しい丘登り最適化法で重なり合う斜角を見つけることをモデル化する。
論文 参考訳(メタデータ) (2023-02-01T06:30:41Z) - StepGame: A New Benchmark for Robust Multi-Hop Spatial Reasoning in
Texts [12.254118455438535]
本稿では,テキストにおけるマルチホップ空間推論のためのSteepGameと呼ばれる質問応答データセットを提案する。
また,空間推論タスクに特化したメモリ拡張ニューラルネットワーク(TP-MANN)を提案する。
論文 参考訳(メタデータ) (2022-04-18T12:46:46Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z) - SPEED+: Next Generation Dataset for Spacecraft Pose Estimation across
Domain Gap [0.9449650062296824]
本稿では,SPEED+について紹介する。次世代宇宙船は,領域ギャップに着目したポーズ推定データセットである。
SPEED+には、レンデブース・オプティカル・ナビゲーション(TRON)施設で撮影された宇宙船モックアップモデルの9,531枚のシミュレーション画像が含まれている。
TRONは、任意の数のターゲット画像を、正確かつ極端に多様なポーズラベルで撮影できる、第一種ロボットテストベッドである。
論文 参考訳(メタデータ) (2021-10-06T23:22:24Z) - Assistive Relative Pose Estimation for On-orbit Assembly using
Convolutional Neural Networks [0.0]
本稿では、畳み込みニューラルネットワークを利用して、カメラに対して関心のある物体の翻訳と回転を決定する。
アセンブリタスク用に設計されたシミュレーションフレームワークを使用して、修正CNNモデルをトレーニングするためのデータセットを生成する。
モデルが現在の特徴選択法に匹敵する性能を示し、従ってそれらと組み合わせてより信頼性の高い推定値を提供することができる。
論文 参考訳(メタデータ) (2020-01-29T02:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。