論文の概要: Open-Vocabulary Spatio-Temporal Scene Graph for Robot Perception and Teleoperation Planning
- arxiv url: http://arxiv.org/abs/2509.23107v1
- Date: Sat, 27 Sep 2025 04:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.044335
- Title: Open-Vocabulary Spatio-Temporal Scene Graph for Robot Perception and Teleoperation Planning
- Title(参考訳): ロボット知覚と遠隔操作計画のためのオープン語彙時空間グラフ
- Authors: Yi Wang, Zeyu Xue, Mujie Liu, Tongqin Zhang, Yan Hu, Zhou Zhao, Chenguang Yang, Zhenyu Lu,
- Abstract要約: 動的リモートシーンでは、双方向通信における伝送遅延は、リモート認識状態とオペレータ意図の間のギャップを生じさせる。
本稿では,時間的ダイナミクスと軽量遅延アノテーションを用いて,オープン語彙認識を充実させる表現を提案する。
提案手法はReplicaベンチマークで74%のノード精度を実現し,Concept.Graphよりも優れていた。
- 参考スコア(独自算出の注目度): 55.90805559207812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Teleoperation via natural-language reduces operator workload and enhances safety in high-risk or remote settings. However, in dynamic remote scenes, transmission latency during bidirectional communication creates gaps between remote perceived states and operator intent, leading to command misunderstanding and incorrect execution. To mitigate this, we introduce the Spatio-Temporal Open-Vocabulary Scene Graph (ST-OVSG), a representation that enriches open-vocabulary perception with temporal dynamics and lightweight latency annotations. ST-OVSG leverages LVLMs to construct open-vocabulary 3D object representations, and extends them into the temporal domain via Hungarian assignment with our temporal matching cost, yielding a unified spatio-temporal scene graph. A latency tag is embedded to enable LVLM planners to retrospectively query past scene states, thereby resolving local-remote state mismatches caused by transmission delays. To further reduce redundancy and highlight task-relevant cues, we propose a task-oriented subgraph filtering strategy that produces compact inputs for the planner. ST-OVSG generalizes to novel categories and enhances planning robustness against transmission latency without requiring fine-tuning. Experiments show that our method achieves 74 percent node accuracy on the Replica benchmark, outperforming ConceptGraph. Notably, in the latency-robustness experiment, the LVLM planner assisted by ST-OVSG achieved a planning success rate of 70.5 percent.
- Abstract(参考訳): 自然言語による遠隔操作はオペレータの作業量を削減し、リスクの高い設定やリモート設定の安全性を高める。
しかし、動的リモートシーンでは、双方向通信における送信遅延は、リモート認識状態とオペレータ意図の間のギャップを生じさせ、コマンドの誤解と誤った実行につながる。
これを緩和するために、時相動的および軽量遅延アノテーションによるオープン語彙認識を充実させる表現である、時空間オープン語彙シーングラフ(ST-OVSG)を導入する。
ST-OVSGはLVLMを活用してオープンな3次元オブジェクト表現を構築し、時間的マッチングコストでハンガリーの代入によって時間的領域に拡張し、時空間グラフを統一する。
遅延タグを埋め込んで、LVLMプランナが過去のシーン状態を遡及的にクエリし、送信遅延によるローカル-リモート状態のミスマッチを解決する。
冗長性をさらに低減し,タスク関連キューを強調するために,計画者に対してコンパクトな入力を生成するタスク指向サブグラフフィルタリング戦略を提案する。
ST-OVSGは、新しいカテゴリに一般化し、微調整を必要とせず、送信遅延に対するプランニングロバスト性を高める。
実験の結果,Replicaベンチマークのノード精度は74%で,ConceptGraphよりも優れていた。
特に、遅延劣化実験では、ST-OVSGが補助するLVLMプランナーが70.5%の計画成功率を達成した。
関連論文リスト
- UTAL-GNN: Unsupervised Temporal Action Localization using Graph Neural Networks [0.0]
非トリミングスポーツビデオにおける微粒なアクションローカライゼーションは、迅速かつ微妙な動き遷移のために重大な課題を呈している。
既存の教師付きおよび弱教師付きソリューションは、しばしば広範なデータセットと高容量モデルに依存し、計算集約的で現実世界のシナリオに適応できない。
提案手法では,ブロックワイドパーティションを付加したポーズ列を付加したアテンションベースの時空間グラフ畳み込みネットワーク(ASTGCN)を事前学習する。
DSVダイビングデータセット上で平均平均平均精度(mAP)82.66%、平均遅延局所化29.09msを達成する。
論文 参考訳(メタデータ) (2025-08-27T07:51:02Z) - Multimodal Spatio-temporal Graph Learning for Alignment-free RGBT Video Object Detection [13.682115079677466]
RGB-Thermal Video Object Detection (RGBT VOD)は、従来のRGBベースのVODの照明条件の制限に対処することができる。
本稿では,アライメントフリーなRGBTVOD問題に対するマルチモーダル時空間グラフ学習ネットワーク(MSGNet)を提案する。
論文 参考訳(メタデータ) (2025-04-16T05:32:59Z) - SCoTT: Strategic Chain-of-Thought Tasking for Wireless-Aware Robot Navigation in Digital Twins [78.53885607559958]
無線対応経路計画フレームワークであるSCoTTを提案する。
SCoTT は DP-WA* の2% 以内で経路ゲインを達成し, 連続的に短い軌道を生成できることを示す。
また,ガゼボシミュレーションにおいて,SCoTTをROSノードとして配置することにより,本手法の実用性を示す。
論文 参考訳(メタデータ) (2024-11-27T10:45:49Z) - STGformer: Efficient Spatiotemporal Graph Transformer for Traffic Forecasting [11.208740750755025]
交通はスマートシティマネジメントの基盤であり、効率的なアロケーションと交通計画を可能にしている。
ディープラーニングは、データの複雑な非線形パターンをキャプチャする能力を持ち、トラフィック予測の強力なツールとして登場した。
グラフニューラルネットワーク(GCN)とトランスフォーマーベースのモデルは、将来性を示しているが、その計算要求はしばしば、現実のネットワークへの応用を妨げる。
本稿では,管理可能な計算フットプリントを維持しつつ,グローバルおよびローカルの両方のトラフィックパターンの効率的なモデリングを可能にする新しいテンポラルグラフトランスフォーマー(STG)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:15:48Z) - Scaling Learning based Policy Optimization for Temporal Logic Tasks by Controller Network Dropout [4.421486904657393]
非線形環境下で動作する自律エージェントに対して,フィードバックコントローラを訓練するためのモデルに基づくアプローチを提案する。
この学習問題は、エージェントのタスク目標の時間的地平線に比例して繰り返し単位の数が比例する、リカレントニューラルネットワーク(RNN)のトレーニングとどのように似ているかを示す。
そこで我々は,ドロップアウトあるいは勾配サンプリングのアイデアに基づく新しい勾配近似アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-23T12:53:51Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - StrObe: Streaming Object Detection from LiDAR Packets [73.27333924964306]
ローリングシャッターのLiDARはパケットのストリームとして出力され、それぞれ360degのカバレッジのセクターをカバーする。
現代の認識アルゴリズムは、データを処理する前に全スイープが構築されるのを待つ。
本稿では,LiDARパケットを取り込み,全スイープが構築されるのを待たずに検出ストリームを出力することで,レイテンシを最小化する新しいアプローチであるStrObeを提案する。
論文 参考訳(メタデータ) (2020-11-12T14:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。