論文の概要: TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics
- arxiv url: http://arxiv.org/abs/2510.07181v2
- Date: Thu, 09 Oct 2025 13:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.593
- Title: TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics
- Title(参考訳): TIGeR:ロボットの視覚言語モデルにおけるツールによる幾何学的推論
- Authors: Yi Han, Cheng Chi, Enshen Zhou, Shanyu Rong, Jingkun An, Pengwei Wang, Zhongyuan Wang, Lu Sheng, Shanghang Zhang,
- Abstract要約: 本稿では、視覚言語モデル(VLM)を幾何学コンピュータに変換する新しいフレームワークであるTIGeR(Tool-Integrated Geometric Reasoning)を提案する。
TIGeRは、ニューラルネットワーク内で複雑な幾何学的操作を内部化しようとするのではなく、幾何学的推論要求を認識するためにモデルに権限を与える。
TIGeRは、実世界のロボット操作タスクにおいて、センチメートルレベルの精度を示しながら、幾何学的推論ベンチマーク上でSOTA性能を達成することを示す。
- 参考スコア(独自算出の注目度): 53.442362491589726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have shown remarkable capabilities in spatial reasoning, yet they remain fundamentally limited to qualitative precision and lack the computational precision required for real-world robotics. Current approaches fail to leverage metric cues from depth sensors and camera calibration, instead reducing geometric problems to pattern recognition tasks that cannot deliver the centimeter-level accuracy essential for robotic manipulation. We present TIGeR (Tool-Integrated Geometric Reasoning), a novel framework that transforms VLMs from perceptual estimators to geometric computers by enabling them to generate and execute precise geometric computations through external tools. Rather than attempting to internalize complex geometric operations within neural networks, TIGeR empowers models to recognize geometric reasoning requirements, synthesize appropriate computational code, and invoke specialized libraries for exact calculations. To support this paradigm, we introduce TIGeR-300K, a comprehensive tool-invocation-oriented dataset covering point transformations, pose estimation, and spatial compatibility verification, complete with tool invocation sequences and intermediate computations. Through a two-stage training pipeline combining supervised fine-tuning (SFT) and reinforcement fine-tuning (RFT) with our proposed hierarchical reward design, TIGeR achieves SOTA performance on geometric reasoning benchmarks while demonstrating centimeter-level precision in real-world robotic manipulation tasks.
- Abstract(参考訳): VLM(Vision-Language Models)は空間的推論において顕著な能力を示したが、定性的な精度に留まり、現実のロボット工学に必要な計算精度に欠けていた。
現在のアプローチでは、深度センサーやカメラキャリブレーションによる計測方法を活用することができず、代わりに幾何学的な問題を、ロボット操作に必要なセンチメートルレベルの精度を達成できないパターン認識タスクに還元する。
TIGeR(Tool-Integrated Geometric Reasoning)は,VLMを知覚的推定器から幾何学的コンピュータへ変換する新しいフレームワークである。
TIGeRは、ニューラルネットワーク内で複雑な幾何学的操作を内部化しようとするのではなく、幾何学的推論要求を認識し、適切な計算コードを合成し、正確な計算のために特別なライブラリを呼び出すようにモデルに権限を与える。
このパラダイムをサポートするため、TIGeR-300Kは、点変換、ポーズ推定、空間整合性検証を網羅した総合的なツール呼び出し指向のデータセットであり、ツール呼び出しシーケンスと中間計算を完備する。
教師付き微調整(SFT)と強化微調整(RFT)を組み合わせた2段階の訓練パイプラインと提案した階層型報酬設計により、TIGeRは、実世界のロボット操作タスクにおいてセンチメートルレベルの精度を示しながら、幾何学的推論ベンチマーク上でSOTA性能を達成する。
関連論文リスト
- Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - A Segmented Robot Grasping Perception Neural Network for Edge AI [0.051776141577794685]
本研究は,GAP9 RISC-V System-on-Chip上でのHeatmap-Guided Grasp検出を実装した。
このモデルは、入力次元の削減、モデルの分割、量子化など、ハードウェア対応技術を用いて最適化される。
GraspNet-1Billionベンチマークの実験的な評価は、完全なオンチップ推論の実現可能性を検証する。
論文 参考訳(メタデータ) (2025-07-18T14:32:45Z) - Geometry-Informed Neural Operator Transformer [0.8906214436849201]
この研究は、Geometry-Informed Neural Operator Transformer (GINOT)を導入し、トランスフォーマーアーキテクチャとニューラルオペレータフレームワークを統合し、任意のジオメトリの前方予測を可能にする。
GINOTの性能は複数の挑戦的なデータセットで検証され、複雑で任意の2Dおよび3Dジオメトリに対して高い精度と強力な一般化能力を示す。
論文 参考訳(メタデータ) (2025-04-28T03:39:27Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。