論文の概要: Spatial Competence Benchmark
- arxiv url: http://arxiv.org/abs/2604.09594v1
- Date: Thu, 05 Mar 2026 00:27:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.526181
- Title: Spatial Competence Benchmark
- Title(参考訳): 空間コンピテンスベンチマーク
- Authors: Jash Vira, Ashley Harris,
- Abstract要約: 空間コンピテンスベンチマーク(SCBench)について紹介する。
SCBenchでは、3つのフロンティアモデルが機能はしごの精度を単調に低下させる。
タスクジェネレータ、検証器、可視化ツールをリリースします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial competence is the quality of maintaining a consistent internal representation of an environment and using it to infer discrete structure and plan actions under constraints. Prevailing spatial evaluations for large models are limited to probing isolated primitives through 3D transformations or visual question answering. We introduce the Spatial Competence Benchmark (SCBench), spanning three hierarchical capability buckets whose tasks require executable outputs verified by deterministic checkers or simulator-based evaluators. On SCBench, three frontier models exhibit monotonically decreasing accuracy up the capability ladder. Sweeping output-token caps shows that accuracy gains concentrate at low budgets and saturate quickly, and failures are dominated by locally plausible geometry that breaks global constraints. We release the task generators, verifiers, and visualisation tooling.
- Abstract(参考訳): 空間的能力は、環境の一貫性のある内部表現を維持し、それを用いて、制約の下での離散的な構造と計画行動を予測する品質である。
大きなモデルの空間的評価は、3次元変換や視覚的質問応答による孤立プリミティブの探索に限られる。
本稿では,3つの階層型機能バケットにまたがる空間コンピテンスベンチマーク(SCBench)を提案する。
SCBenchでは、3つのフロンティアモデルが機能はしごの精度を単調に低下させる。
スウィーピング出力トーケンキャップは、精度の向上が低予算で集中し、迅速に飽和し、失敗はグローバルな制約を破る局所的可測な幾何学によって支配されることを示している。
タスクジェネレータ、検証器、可視化ツールをリリースします。
関連論文リスト
- Towards Counterfactual Explanation and Assertion Inference for CPS Debugging [0.0]
本稿では,サイバー物理システムのための実証的説明とアサーションに基づくキャラクタリゼーションフレームワークであるDeCaFを紹介する。
テスト入力がフェールすると、DeCaFは入力信号の反ファクト変化を生成し、テストが通過しないよう変換する。
提案手法は,3つの反事実生成器と2つの因果モデルを組み合わせて,成功の主張を推測する。
論文 参考訳(メタデータ) (2026-04-09T00:53:00Z) - FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios [58.34124792457706]
製造業セクターは、単純な認識から自律的な実行に移行するために、MLLM(Multimodal Large Language Models)をますます採用している。
進捗は、データの不足と、既存のデータセットにおけるきめ細かいドメインセマンティクスの欠如によって妨げられている。
まず、実世界の2D画像と3Dポイントクラウドを組み合わせて、微粒なドメインセマンティクスを付加した高品質なデータセットを構築します。
次に, 3 つの製造課題,すなわち, 構造面検査, 組立検査, 組立検証の18の最先端MLLMを評価し, 大幅な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-04-08T12:23:27Z) - AgentCE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments [16.54998750873037]
AgentCE-Benchはグリッドベースの統合計画タスクを中心に構築されている。
エージェントは、ローカルスロット制約とグローバル制約の両方を条件として、部分的に完了したスケジュールで隠れスロットを埋める。
AgentCE-Benchは、エージェント推論の解釈可能かつ制御可能な評価を提供する。
論文 参考訳(メタデータ) (2026-04-07T17:21:28Z) - SVII-3D: Advancing Roadside Infrastructure Inventory with Decimeter-level 3D Localization and Comprehension from Sparse Street Imagery [11.807389677546134]
SVII-3Dは、総合資産デジタル化のための統一されたフレームワークである。
LoRA微細調整されたオープンセット検出は、空間的アテンションマッチングネットワークと融合し、スパースビュー間で観測を強力に関連付ける。
SVII-3Dは同定精度を著しく向上し、局所化誤差を最小化することを示した。
論文 参考訳(メタデータ) (2026-01-15T15:57:18Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Resilience of Vision Transformers for Domain Generalisation in the Presence of Out-of-Distribution Noisy Images [2.2124795371148616]
マスク付き画像モデリング(MIM)で事前訓練した視覚トラスフォーマーを,OODベンチマークと比較した。
実験では、BEITの既知の堅牢性を実証し、PACSでは94%、Office-Homeでは87%の精度を維持した。
これらの洞察は、実験室で訓練されたモデルと、不確実性の下で確実に一般化するAIシステムを構築するための青写真を提供する現実世界のデプロイメントのギャップを埋めるものだ。
論文 参考訳(メタデータ) (2025-04-05T16:25:34Z) - Improving Gaussian Splatting with Localized Points Management [52.009874685460694]
局所的点管理(LPM)は、点加算と幾何校正の両方を最大限に必要としながら、これらの誤り貢献ゾーンを特定することができる。
LPMは特定されたゾーンに点密度を適用し、これらの領域の前にある点の不透明度をリセットし、不適切な点を修正する新しい機会を生み出す。
特に、LPMは静的3DGSとダイナミックなSpaceTimeGSの両方を改善して、リアルタイム速度を維持しながら最先端のレンダリング品質を実現している。
論文 参考訳(メタデータ) (2024-06-06T16:55:07Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。