論文の概要: SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models
- arxiv url: http://arxiv.org/abs/2412.07755v2
- Date: Thu, 03 Apr 2025 17:59:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 19:20:46.371478
- Title: SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models
- Title(参考訳): SAT:マルチモーダル言語モデルのための動的空間適性トレーニング
- Authors: Arijit Ray, Jiafei Duan, Ellis Brown, Reuben Tan, Dina Bashkirova, Rose Hendrix, Kiana Ehsani, Aniruddha Kembhavi, Bryan A. Plummer, Ranjay Krishna, Kuo-Hao Zeng, Kate Saenko,
- Abstract要約: シミュレーションは,実画像に翻訳する空間的適性を与えるのに驚くほど効果的であることを示す。
シミュレーションにおける完全アノテーションは、擬似アノテーション実画像の既存のアプローチよりも効果的であることを示す。
- 参考スコア(独自算出の注目度): 78.06537464850538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning about motion and space is a fundamental cognitive capability that is required by multiple real-world applications. While many studies highlight that large multimodal language models (MLMs) struggle to reason about space, they only focus on static spatial relationships, and not dynamic awareness of motion and space, i.e., reasoning about the effect of egocentric and object motions on spatial relationships. Manually annotating such object and camera movements is expensive. Hence, we introduce SAT, a simulated spatial aptitude training dataset comprising both static and dynamic spatial reasoning across 175K question-answer (QA) pairs and 20K scenes. Complementing this, we also construct a small (150 image-QAs) yet challenging dynamic spatial test set using real-world images. Leveraging our SAT datasets and 6 existing static spatial benchmarks, we systematically investigate what improves both static and dynamic spatial awareness. Our results reveal that simulations are surprisingly effective at imparting spatial aptitude to MLMs that translate to real images. We show that perfect annotations in simulation are more effective than existing approaches of pseudo-annotating real images. For instance, SAT training improves a LLaVA-13B model by an average 11% and a LLaVA-Video-7B model by an average 8% on multiple spatial benchmarks, including our real-image dynamic test set and spatial reasoning on long videos -- even outperforming some large proprietary models. While reasoning over static relationships improves with synthetic training data, there is still considerable room for improvement for dynamic reasoning questions.
- Abstract(参考訳): 動きと空間に関する推論は、複数の現実世界のアプリケーションで必要とされる基本的な認知能力である。
多くの研究は、大きなマルチモーダル言語モデル(MLM)が空間について考えるのに苦労していることを強調しているが、それらは静的な空間的関係にのみ焦点を絞っており、運動と空間の動的な認識、すなわち、自我中心と物体の動きが空間的関係に与える影響を推論するものではない。
このような物体やカメラの動きを手動で注釈付けすることは高価である。
そこで本研究では,175K問合せ(QA)対と20Kシーンの静的および動的空間推論を含む空間適性学習データセットSATを紹介する。
また,実世界の画像を用いて,小さな(150イメージQA)空間的テストセットを構築した。
SATデータセットと既存の静的空間ベンチマークを6つ活用し、静的空間認識と動的空間認識の両方の改善点を体系的に検討する。
その結果,実画像に変換されるMLMに空間的適性を与えるのに,シミュレーションが驚くほど効果的であることが判明した。
シミュレーションにおける完全アノテーションは、擬似アノテーション実画像の既存のアプローチよりも効果的であることを示す。
例えば、SATトレーニングでは、LLaVA-13Bモデルを平均11%改善し、LLaVA-Video-7Bモデルを複数の空間ベンチマークで平均8%改善しています。
静的な関係に対する推論は、合成トレーニングデータによって改善されるが、動的推論の質問に対する改善の余地は十分にある。
関連論文リスト
- Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models [14.442394137843923]
本稿では,まず空間的推論のコア要素を記述した詳細な分析を行う。
次に、これらのモデルの性能を、合成画像と実画像の両方で評価する。
論文 参考訳(メタデータ) (2025-03-25T14:34:06Z) - DynamicVis: An Efficient and General Visual Foundation Model for Remote Sensing Image Understanding [25.32283897448209]
DynamicVisはリモートセンシング画像のための動的視覚認識基盤モデルである。
選択状態空間モデルに基づく新しい動的領域知覚バックボーンを統合する。
97msのレイテンシ(ViTの6%)と833MBのGPUメモリ(ViTの3%)を備えた処理(2048x2048)ピクセルのマルチレベルの特徴モデリングを実現している。
論文 参考訳(メタデータ) (2025-03-20T17:59:54Z) - Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文 参考訳(メタデータ) (2024-12-18T18:59:54Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - What's "up" with vision-language models? Investigating their struggle
with spatial reasoning [76.2406963762722]
3つの新しいコーパスは基本空間関係のモデル理解を定量化する。
我々は18の視覚言語(VL)モデルを評価し、全てが不十分であることが判明した。
私たちはこの驚くべき行動の原因を研究することで結論付ける。
論文 参考訳(メタデータ) (2023-10-30T17:50:15Z) - QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse
Sensors [69.75711933065378]
ヘッドセットとコントローラーのポーズは,高度に制約された環境においても,現実的なフルボディのポーズを生成可能であることを示す。
本稿では,環境表現,接触報酬,シーンランダム化の3つの特徴について論じる。
論文 参考訳(メタデータ) (2023-06-09T04:40:38Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - W2SAT: Learning to generate SAT instances from Weighted Literal Incidence Graphs [11.139131079925113]
W2SATは、現実世界/産業インスタンスから固有の構造と特性を学ぶことによってSAT式を生成するフレームワークである。
Weighted Literal Incidence Graph (WLIG)と呼ばれる新しいSAT表現を導入する。
WLIGからSAT問題への復号化は、新しい丘登り最適化法で重なり合う斜角を見つけることをモデル化する。
論文 参考訳(メタデータ) (2023-02-01T06:30:41Z) - StepGame: A New Benchmark for Robust Multi-Hop Spatial Reasoning in
Texts [12.254118455438535]
本稿では,テキストにおけるマルチホップ空間推論のためのSteepGameと呼ばれる質問応答データセットを提案する。
また,空間推論タスクに特化したメモリ拡張ニューラルネットワーク(TP-MANN)を提案する。
論文 参考訳(メタデータ) (2022-04-18T12:46:46Z) - Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals [77.46233234061758]
視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
論文 参考訳(メタデータ) (2022-03-15T17:02:30Z) - SPEED+: Next Generation Dataset for Spacecraft Pose Estimation across
Domain Gap [0.9449650062296824]
本稿では,SPEED+について紹介する。次世代宇宙船は,領域ギャップに着目したポーズ推定データセットである。
SPEED+には、レンデブース・オプティカル・ナビゲーション(TRON)施設で撮影された宇宙船モックアップモデルの9,531枚のシミュレーション画像が含まれている。
TRONは、任意の数のターゲット画像を、正確かつ極端に多様なポーズラベルで撮影できる、第一種ロボットテストベッドである。
論文 参考訳(メタデータ) (2021-10-06T23:22:24Z) - Assistive Relative Pose Estimation for On-orbit Assembly using
Convolutional Neural Networks [0.0]
本稿では、畳み込みニューラルネットワークを利用して、カメラに対して関心のある物体の翻訳と回転を決定する。
アセンブリタスク用に設計されたシミュレーションフレームワークを使用して、修正CNNモデルをトレーニングするためのデータセットを生成する。
モデルが現在の特徴選択法に匹敵する性能を示し、従ってそれらと組み合わせてより信頼性の高い推定値を提供することができる。
論文 参考訳(メタデータ) (2020-01-29T02:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。