論文の概要: HomeEmergency -- Using Audio to Find and Respond to Emergencies in the Home
- arxiv url: http://arxiv.org/abs/2504.01089v1
- Date: Tue, 01 Apr 2025 18:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:19:52.558808
- Title: HomeEmergency -- Using Audio to Find and Respond to Emergencies in the Home
- Title(参考訳): HomeEmergency - 音声による自宅の緊急性の検出と応答
- Authors: James F. Mullen Jr, Dhruva Kumar, Xuewei Qi, Rajasimman Madhivanan, Arnie Sen, Dinesh Manocha, Richard Kim,
- Abstract要約: 米国だけで、事故死は年間128,000人を超えている。
我々の研究は、家庭の緊急事態に対処し、怪我や死を防ぐホームロボットを可能にすることを目的としている。
- 参考スコア(独自算出の注目度): 42.18870689560617
- License:
- Abstract: In the United States alone accidental home deaths exceed 128,000 per year. Our work aims to enable home robots who respond to emergency scenarios in the home, preventing injuries and deaths. We introduce a new dataset of household emergencies based in the ThreeDWorld simulator. Each scenario in our dataset begins with an instantaneous or periodic sound which may or may not be an emergency. The agent must navigate the multi-room home scene using prior observations, alongside audio signals and images from the simulator, to determine if there is an emergency or not. In addition to our new dataset, we present a modular approach for localizing and identifying potential home emergencies. Underpinning our approach is a novel probabilistic dynamic scene graph (P-DSG), where our key insight is that graph nodes corresponding to agents can be represented with a probabilistic edge. This edge, when refined using Bayesian inference, enables efficient and effective localization of agents in the scene. We also utilize multi-modal vision-language models (VLMs) as a component in our approach, determining object traits (e.g. flammability) and identifying emergencies. We present a demonstration of our method completing a real-world version of our task on a consumer robot, showing the transferability of both our task and our method. Our dataset will be released to the public upon this papers publication.
- Abstract(参考訳): 米国だけで、事故死は年間128,000人を超えている。
我々の研究は、家庭の緊急事態に対処し、怪我や死を防ぐホームロボットを可能にすることを目的としている。
本研究では,3DWorldシミュレータに基づく家庭の緊急状況のデータセットを提案する。
データセットの各シナリオは、緊急かもしれないし、そうでないかもしれない即時または周期的な音から始まります。
エージェントは、緊急があるか否かを判断するために、シミュレータからの音声信号や画像とともに、事前の観測を使用して、マルチルームのホームシーンをナビゲートする必要がある。
新しいデータセットに加えて、家庭の緊急事態の特定とローカライズのためのモジュラーなアプローチを提案する。
エージェントに対応するグラフノードは確率的エッジで表現できる,という重要な洞察を,我々のアプローチの根底には新たな確率的動的シーングラフ(P-DSG)がある。
このエッジは、ベイズ推定を用いて洗練されると、シーン内のエージェントの効率的かつ効果的な局在化を可能にする。
また,マルチモーダル視覚言語モデル(VLM)をアプローチのコンポーネントとして利用し,対象特性(例えば可燃性)を判定し,緊急事態を識別する。
本稿では,実際のタスクをコンシューマロボットで実行し,タスクとメソッドの両方の転送可能性を示す。
私たちのデータセットは、この論文の公開時に公開されます。
関連論文リスト
- Predictive Probability Density Mapping for Search and Rescue Using An Agent-Based Approach with Sparse Data [0.294944680995069]
本研究では,失明者の多様な心理的プロファイルを再現するエージェントベースモデルを提案する。
このモデルにより、エージェントは自律的に意思決定をしながら現実世界の風景をナビゲートできる。
本研究は, 探索・救助作業に使用可能な柔軟なエージェントを導入し, 各種地理的位置の適応性を提供する。
論文 参考訳(メタデータ) (2024-12-17T20:37:26Z) - Hazards in Daily Life? Enabling Robots to Proactively Detect and Resolve Anomalies [26.79399508110069]
家庭用ロボットは、家庭内でそのような危険や異常を積極的に検出すべきである。
我々は、シミュレートされた環境を構築するために手動でラベル付けされたデータに頼るのではなく、基礎的なモデルを活用します。
タスク記述やシーンの多様性の観点から、生成した環境が他よりも優れていることを実証する。
論文 参考訳(メタデータ) (2024-10-16T19:29:14Z) - Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video [18.14234312389889]
本稿では,視覚的インプットとタスク記述を結びつけるために,空間的局所化されたエゴセントリックビデオのトレーニングを行うシステムを提案する。
提案手法は,VLMを用いてタスク記述の類似性を位置タグ付き画像にマッピングする手法よりも優れていることを示す。
このシステムは、ロボットがエゴセントリックな感覚を使って、自然言語で指定された新しいタスクの物理的な場所をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-07-18T18:55:56Z) - "Don't forget to put the milk back!" Dataset for Enabling Embodied Agents to Detect Anomalous Situations [49.66220439673356]
私たちは、SafetyDetectと呼ばれる新しいデータセットを作成しました。
SafetyDetectデータセットは1000の異常なホームシーンで構成されている。
提案手法は,シーンのグラフ表現とシーン内のオブジェクト間の関係の両方とともに,大規模言語モデル(LLM)を利用する。
論文 参考訳(メタデータ) (2024-04-12T21:56:21Z) - JRDB-Traj: A Dataset and Benchmark for Trajectory Forecasting in Crowds [79.00975648564483]
ロボット工学、自動運転車、ナビゲーションなどの分野で使用される軌道予測モデルは、現実のシナリオにおいて課題に直面している。
このデータセットは、ロボットの観点から、すべてのエージェント、シーンイメージ、ポイントクラウドの位置を含む包括的なデータを提供する。
本研究の目的は,ロボットに対するエージェントの将来の位置を,生の感覚入力データを用いて予測することである。
論文 参考訳(メタデータ) (2023-11-05T18:59:31Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Dwelling Type Classification for Disaster Risk Assessment Using
Satellite Imagery [3.88838725116957]
周辺地域の危険度とリスク評価は, 災害対策に不可欠である。
既存のシステムは、時間と費用のかかるフィールドサーベイに依存するため、警告を解読し、超局所的なレベルでリスクの正確な範囲を評価するスケーラブルな方法を提供していない。
この研究において、機械学習は住居とそのタイプを特定するプロセスを自動化するために使用され、潜在的に効果的な災害脆弱性評価システムを構築した。
論文 参考訳(メタデータ) (2022-11-16T03:08:15Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。