論文の概要: Designing Multi-Robot Ground Video Sensemaking with Public Safety Professionals
- arxiv url: http://arxiv.org/abs/2602.08882v2
- Date: Tue, 10 Feb 2026 18:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:43.216087
- Title: Designing Multi-Robot Ground Video Sensemaking with Public Safety Professionals
- Title(参考訳): 公共安全専門家によるマルチロボット地上映像センシングの設計
- Authors: Puqi Zhou, Ali Asgarov, Aafiya Hussain, Wonjoon Park, Amit Paudyal, Sameep Shrestha, Chia-wei Tang, Michael F. Lighthiser, Michael R. Hieb, Xuesu Xiao, Chris Thomas, Sungsoo Ray Hong,
- Abstract要約: 地上ロボットからの映像は、スケーラブルな状況認識を提供し、専門家の負担を軽減することで、公共の安全を向上することができる。
しかし、マルチロボットビデオを公共の安全のために設計し、統合する方法については、ほとんど知られていない。
我々は,マルチロボットグラウンド・ビデオ・センスメイキングのための最初のテストベッドを提示した。
MRVSは、マルチロボットパトロールビデオストリームを、プロンプトエンジニアリングのビデオ理解モデルで強化するツールです。
- 参考スコア(独自算出の注目度): 9.101943618851053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos from fleets of ground robots can advance public safety by providing scalable situational awareness and reducing professionals' burden. Yet little is known about how to design and integrate multi-robot videos into public safety workflows. Collaborating with six police agencies, we examined how such videos could be made practical. In Study 1, we presented the first testbed for multi-robot ground video sensemaking. The testbed includes 38 events-of-interest (EoI) relevant to public safety, a dataset of 20 robot patrol videos (10 day/night pairs) covering EoI types, and 6 design requirements aimed at improving current video sensemaking practices. In Study 2, we built MRVS, a tool that augments multi-robot patrol video streams with a prompt-engineered video understanding model. Participants reported reduced manual workload and greater confidence with LLM-based explanations, while noting concerns about false alarms and privacy. We conclude with implications for designing future multi-robot video sensemaking tools.
- Abstract(参考訳): 地上ロボットの映像は、スケーラブルな状況認識を提供し、専門家の負担を軽減することで、公共の安全を向上することができる。
しかし、マルチロボットビデオの設計と統合を公共の安全ワークフローに組み込む方法についてはほとんど知られていない。
6つの警察機関と共同で,このような映像を実用的にする方法について検討した。
研究1では,マルチロボットグラウンド・ビデオ・センスメイキングのための最初のテストベッドについて紹介した。
テストベッドには、公共の安全に関連する38のイベント(EoI)、EoIのタイプをカバーする20のロボットパトロールビデオ(10日と夜のペア)のデータセット、現在のビデオセンスの実践を改善するための6つの設計要件が含まれている。
Study 2では,マルチロボットパトロールビデオストリームをプロンプトエンジニアリングのビデオ理解モデルで拡張するMRVSを構築した。
参加者は、手作業の負荷を減らし、LCMに基づく説明に対する信頼性を高め、誤報やプライバシーに関する懸念を訴えた。
我々は,将来的なマルチロボット・ビデオ・センス作成ツールを設計する上での意義を結論づける。
関連論文リスト
- H2R-Grounder: A Paired-Data-Free Paradigm for Translating Human Interaction Videos into Physically Grounded Robot Videos [58.006918399913665]
本稿では,通常の人間と物体のインタラクションビデオからモーション一貫性のあるロボット操作ビデオに変換するビデオ間翻訳フレームワークを提案する。
私たちのアプローチでは、ロボットビデオのセットのみをトレーニングするために、ペアの人間ロボットビデオは必要とせず、システムを拡張しやすくしています。
テスト時にも同じプロセスを人間のビデオに適用し、人間の行動を模倣する高品質なロボットビデオを生成する。
論文 参考訳(メタデータ) (2025-12-10T07:59:45Z) - RGC-VQA: An Exploration Database for Robotic-Generated Video Quality Assessment [49.08282292724247]
本稿では,ロボットの自我中心的な視点から生成された映像を表現するために,ロボット生成コンテンツ(RGC)の概念を提案する。
RGCビデオは、プロが生成したコンテンツとは異なる独特の歪みと視覚的要求を示す。
RGCDには3つのロボットカテゴリーから作成され、多様なプラットフォームからソースされた合計2100本のビデオが含まれている。
論文 参考訳(メタデータ) (2025-06-30T13:44:30Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - Towards Generalist Robot Learning from Internet Video: A Survey [56.621902345314645]
本調査は,ビデオ(LfV)の新たな学習分野を体系的に検討する。
まず,ビデオデータにおける分散シフトや動作ラベルの欠如といった基本的なLfV課題について概説する。
次に、大規模インターネットビデオから知識を抽出し、LfV課題を克服し、ビデオインフォームドトレーニングによるロボット学習を改善するための現在の手法を包括的にレビューする。
論文 参考訳(メタデータ) (2024-04-30T15:57:41Z) - Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
Vid2Robotは、人間のビデオで操作タスクを入力として表現し、ロボットアクションを生成する、エンドツーエンドのビデオ条件付きポリシーである。
我々のモデルは、ビデオから人間とロボットのアクションの統一表現を学習するために、プロンプトロボット軌道対の大規模なデータセットを用いて訓練されている。
実世界のロボット上でのVid2Robotの評価を行い、人間のプロンプトビデオを用いた場合、BC-Zよりも20%以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。