論文の概要: Spatial Language Likelihood Grounding Network for Bayesian Fusion of Human-Robot Observations
- arxiv url: http://arxiv.org/abs/2507.19947v2
- Date: Wed, 30 Jul 2025 13:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 11:57:45.832428
- Title: Spatial Language Likelihood Grounding Network for Bayesian Fusion of Human-Robot Observations
- Title(参考訳): 人間-ロボット観測のベイズ融合のための空間言語類似グラウンドネットワーク
- Authors: Supawich Sitdhipol, Waritwong Sukprasongdee, Ekapol Chuangsuwanich, Rina Tse,
- Abstract要約: 不確実性を認識した融合フレームワークは、人間の入力の不確実性を表す基礎的な可能性を必要とする。
本稿では,地図画像の特徴を学習することで空間言語を基盤とする特徴ピラミッド類似グラウンドネットワーク(FP-LGN)を提案する。
共同センシングの結果,不均質な人間の言語観測とロボットセンサ計測の不確実性を考慮した融合の実現に成功した可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.008130792416869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fusing information from human observations can help robots overcome sensing limitations in collaborative tasks. However, an uncertainty-aware fusion framework requires a grounded likelihood representing the uncertainty of human inputs. This paper presents a Feature Pyramid Likelihood Grounding Network (FP-LGN) that grounds spatial language by learning relevant map image features and their relationships with spatial relation semantics. The model is trained as a probability estimator to capture aleatoric uncertainty in human language using three-stage curriculum learning. Results showed that FP-LGN matched expert-designed rules in mean Negative Log-Likelihood (NLL) and demonstrated greater robustness with lower standard deviation. Collaborative sensing results demonstrated that the grounded likelihood successfully enabled uncertainty-aware fusion of heterogeneous human language observations and robot sensor measurements, achieving significant improvements in human-robot collaborative task performance.
- Abstract(参考訳): 人間の観察から情報を集めることで、ロボットは協調作業における知覚的制限を克服することができる。
しかし、不確実性を認識した融合フレームワークは、人間の入力の不確実性を表す基礎的な可能性を必要とする。
本稿では,地図画像の特徴と空間関係のセマンティクスとの関係を学習し,空間言語を基盤とする特徴ピラミッド類似グラウンドネットワーク(FP-LGN)を提案する。
このモデルは,3段階のカリキュラム学習を用いて,人間の言語におけるアレラトリック不確かさを捉えるための確率推定器として訓練されている。
その結果, FP-LGNはNLL(負ログ類似度)の平均値と一致し, 標準偏差が低いほど頑健性を示した。
協調センシングの結果,不均一な人間の言語観測とロボットセンサ計測の不確実性を考慮した融合の実現に成功し,ロボットとロボットの協調作業性能に大きな改善が得られた。
関連論文リスト
- Anthropomimetic Uncertainty: What Verbalized Uncertainty in Language Models is Missing [66.04926909181653]
我々は人為的不確実性について論じる。つまり、直感的で信頼に値する不確実性コミュニケーションは、ユーザに対してある程度の言語的信頼とパーソナライズを必要とする。
我々は、不確実性に関する人間と機械のコミュニケーションにおけるユニークな要因を指摘し、機械の不確実性通信に影響を与えるデータのバイアスを分解する。
論文 参考訳(メタデータ) (2025-07-11T14:07:22Z) - Reasoner Outperforms: Generative Stance Detection with Rationalization for Social Media [12.479554210753664]
本研究は、明確な解釈可能な有理性を含む姿勢予測を含む生成的アプローチを採用する。
姿勢検出に推論を組み込むことで、より小さなモデル(FlanT5)がGPT-3.5のゼロショット性能を上回ることが判明した。
論文 参考訳(メタデータ) (2024-12-13T16:34:39Z) - Gaussian Mixture Models for Affordance Learning using Bayesian Networks [50.18477618198277]
Affordancesはアクション、オブジェクト、エフェクト間の関係の基本的な記述である。
本稿では,世界を探究し,その感覚経験から自律的にこれらの余裕を学習するエンボディエージェントの問題にアプローチする。
論文 参考訳(メタデータ) (2024-02-08T22:05:45Z) - Real-time Addressee Estimation: Deployment of a Deep-Learning Model on
the iCub Robot [52.277579221741746]
住所推定は、社会ロボットが人間とスムーズに対話するために必要なスキルである。
人間の知覚スキルにインスパイアされたディープラーニングモデルは、iCubロボットに設計、訓練、デプロイされる。
本研究では,人間-ロボットのリアルタイムインタラクションにおいて,そのような実装の手順とモデルの性能について述べる。
論文 参考訳(メタデータ) (2023-11-09T13:01:21Z) - BOSS: A Benchmark for Human Belief Prediction in Object-context
Scenarios [14.23697277904244]
本稿では,人間と自律システム間の協調を促進させる手法を検討するために,心の理論(ToM)とオブジェクトコンテキスト関係(Object-Context Relations)の複合知識を利用する。
本稿では、人工知能(AI)システムによる、オブジェクトコンテキストシナリオにおける人間の信念状態の予測能力を評価するための、新しい、かつ挑戦的なマルチモーダルビデオデータセットを提案する。
論文 参考訳(メタデータ) (2022-06-21T18:29:17Z) - Data-driven emotional body language generation for social robotics [58.88028813371423]
社会ロボティクスでは、人間型ロボットに感情の身体的表現を生成する能力を与えることで、人間とロボットの相互作用とコラボレーションを改善することができる。
我々は、手作業で設計されたいくつかの身体表現から学習する深層学習データ駆動フレームワークを実装した。
評価実験の結果, 生成した表現の人間同型とアニマシーは手作りの表現と異なる認識が得られなかった。
論文 参考訳(メタデータ) (2022-05-02T09:21:39Z) - HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and
Sensing [1.3678064890824186]
HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは、ロボットチームにおけるアクティブなセマンティックセンシングと計画のためのフレームワークである。
このアプローチにより、人間が不規則にモデル構造を強制し、不確実な環境で意味的なソフトデータの範囲を拡張することができる。
大規模部分構造環境におけるUAV対応ターゲット探索アプリケーションのシミュレーションは、時間と信念状態の推定において著しく改善されている。
論文 参考訳(メタデータ) (2021-10-20T00:41:57Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Joint Inference of States, Robot Knowledge, and Human (False-)Beliefs [90.20235972293801]
本稿では,人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)・人間(時間的)の認知能力が,ロボットとの相互作用にどのように影響するかを理解するために,対象状態,ロボット知識,人間(時間的)の認知能力の表現にグラフィカルモデルを採用することを提案する。
推論アルゴリズムは、複数のビューにまたがる全てのロボットから個別のpgを融合し、単一のビューから発生したエラーを克服するより効果的な推論能力を得る。
論文 参考訳(メタデータ) (2020-04-25T23:02:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。