論文の概要: Spatial Atlas: Compute-Grounded Reasoning for Spatial-Aware Research Agent Benchmarks
- arxiv url: http://arxiv.org/abs/2604.12102v2
- Date: Wed, 15 Apr 2026 03:29:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.455898
- Title: Spatial Atlas: Compute-Grounded Reasoning for Spatial-Aware Research Agent Benchmarks
- Title(参考訳): 空間アトラス:空間認識研究エージェントベンチマークのためのコンピュータグラウンド推論
- Authors: Arun Sharma,
- Abstract要約: 空間認識型研究エージェントのための計算基底推論(CGR)を導入する。
CGRは空間認識型研究エージェントの設計パラダイムであり、全ての答え可能なサブプロブレムは決定論的計算によって解決される。
我々は,CGRが解釈可能性を維持しながら競争精度を向上することを示した。
- 参考スコア(独自算出の注目度): 1.5229257192293202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce compute-grounded reasoning (CGR), a design paradigm for spatial-aware research agents in which every answerable sub-problem is resolved by deterministic computation before a language model is asked to generate. Spatial Atlas instantiates CGR as a single Agent-to-Agent (A2A) server that handles two challenging benchmarks: FieldWorkArena, a multimodal spatial question-answering benchmark spanning factory, warehouse, and retail environments, and MLE-Bench, a suite of 75 Kaggle machine learning competitions requiring end-to-end ML engineering. A structured spatial scene graph engine extracts entities and relations from vision descriptions, computes distances and safety violations deterministically, then feeds computed facts to large language models, thereby avoiding hallucinated spatial reasoning. Entropy-guided action selection maximizes information gain per step and routes queries across a three-tier frontier model stack (OpenAI + Anthropic). A self-healing ML pipeline with strategy-aware code generation, a score-driven iterative refinement loop, and a prompt-based leak audit registry round out the system. We evaluate across both benchmarks and show that CGR yields competitive accuracy while maintaining interpretability through structured intermediate representations and deterministic spatial computations.
- Abstract(参考訳): 本稿では,言語モデルが生成される前に決定論的計算により,全ての解答可能なサブプロブレムを解く空間認識型研究エージェントの設計パラダイムであるCGRを紹介する。
工場、倉庫、小売環境にまたがるマルチモーダルな空間質問回答ベンチマークであるFieldWorkArenaと、エンドツーエンドのMLエンジニアリングを必要とする75のKaggle機械学習コンペティションスイートであるMLE-Benchだ。
構造化空間シーングラフエンジンは、視覚記述から実体と関係を抽出し、距離と安全違反を決定論的に計算し、計算された事実を大規模言語モデルに供給し、幻覚的空間推論を避ける。
エントロピー誘導アクション選択はステップごとの情報ゲインを最大化し、3層フロンティアモデルスタック(OpenAI + Anthropic)にクエリをルーティングする。
戦略を意識したコード生成を備えた自己修復型MLパイプライン、スコア駆動の反復リファインメントループ、インシデントベースのリーク監査レジストリがシステムに組み込まれている。
両ベンチマークで評価し,CGRが構造化中間表現と決定論的空間計算を通した解釈性を維持しながら,競争精度を向上することを示す。
関連論文リスト
- From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation [0.7734726150561086]
Object-Goal Navigation(ObjectNav)は、エージェントが未知の環境で対象のオブジェクトカテゴリを見つけてナビゲートする必要がある。
我々は,LLMに基づく意味推論とハイブリッドトポロジカルグリッドマッピングシステムを統合することにより,リアクティブAIから"マップベースAI"への移行を提案する。
本フレームワークでは,Llama-2モデルを用いて,言語化された対象観測から意味領域のカテゴリと目的存在確率を推定する。
論文 参考訳(メタデータ) (2026-03-09T08:27:28Z) - LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation [21.566771922153027]
競争性能を維持しつつ、シンプルさと効率性を優先するLaSSMを紹介します。
また、問合せを段階的に洗練する座標誘導状態空間モデル(SSM)デコーダを提案する。
LaSSMは最新のScanNet++ V2リーダーボードで1位にランクインし、以前のベストメソッドよりも2.5% mAP、1/3 FLOPを上回っている。
論文 参考訳(メタデータ) (2026-02-11T16:34:12Z) - A-RAG: Scaling Agentic Retrieval-Augmented Generation via Hierarchical Retrieval Interfaces [34.59674580962045]
本稿では,階層型検索インタフェースを直接モデルに公開するエージェントRAGフレームワークであるA-RAGを紹介する。
A-RAGはキーワード検索、セマンティック検索、チャンク読み取りという3つの検索ツールを提供する。
複数のオープンドメインQAベンチマークの実験は、A-RAGが既存のアプローチを同等または低いトークンで一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-02-03T12:07:21Z) - SMc2f: Robust Scenario Mining for Robotic Autonomy from Coarse to Fine [8.662817298688147]
RefAVは、大きな言語モデル(LLM)を使用して、空間的かつ時間的にシナリオをローカライズするエンドツーエンドフレームワークである。
SMc2fは、粗い画像テキストフィルタリングに視覚言語モデル(VLM)を使用するパイプラインである。
公開データセットの実験は、検索品質と効率の両方において、かなりの向上を示している。
論文 参考訳(メタデータ) (2026-01-17T11:25:55Z) - Retrieval-augmented reasoning with lean language models [5.615564811138556]
複雑なドメイン固有のクエリを解釈できる検索拡張会話エージェントを開発した。
本システムでは,細調整されたQwen2.5-Instructモデルと高密度レトリバーを統合した。
すべての実装の詳細とコードは、ドメイン間のサポートと適応のために公開されています。
論文 参考訳(メタデータ) (2025-08-15T10:38:15Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [64.86209459039313]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたエージェントベンチマークである。
我々はReActスタイルの対話ループを実装し,486 個の構造化エージェントタスク上でのオープンソース LLM とクローズドソース LLM の両方を1,773 個の専門家が検証した推論ステップで評価する。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。