論文の概要: CARMA: Context-Aware Situational Grounding of Human-Robot Group Interactions by Combining Vision-Language Models with Object and Action Recognition
- arxiv url: http://arxiv.org/abs/2506.20373v1
- Date: Wed, 25 Jun 2025 12:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.735337
- Title: CARMA: Context-Aware Situational Grounding of Human-Robot Group Interactions by Combining Vision-Language Models with Object and Action Recognition
- Title(参考訳): CARMA:視覚・言語モデルと物体認識と行動認識を組み合わせた人間-ロボット集団インタラクションの状況認識
- Authors: Joerg Deigmoeller, Stephan Hasler, Nakul Agarwal, Daniel Tanneberg, Anna Belardinelli, Reza Ghoddoosian, Chao Wang, Felix Ocker, Fan Zhang, Behzad Dariush, Michael Gienger,
- Abstract要約: CARMAは人間とロボットの相互作用における状況的接地システムである。
実験により,本システムは正確なアクター・アクション・オブジェクト三重項を確実に生成できることが実証された。
- 参考スコア(独自算出の注目度): 13.900094752791027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CARMA, a system for situational grounding in human-robot group interactions. Effective collaboration in such group settings requires situational awareness based on a consistent representation of present persons and objects coupled with an episodic abstraction of events regarding actors and manipulated objects. This calls for a clear and consistent assignment of instances, ensuring that robots correctly recognize and track actors, objects, and their interactions over time. To achieve this, CARMA uniquely identifies physical instances of such entities in the real world and organizes them into grounded triplets of actors, objects, and actions. To validate our approach, we conducted three experiments, where multiple humans and a robot interact: collaborative pouring, handovers, and sorting. These scenarios allow the assessment of the system's capabilities as to role distinction, multi-actor awareness, and consistent instance identification. Our experiments demonstrate that the system can reliably generate accurate actor-action-object triplets, providing a structured and robust foundation for applications requiring spatiotemporal reasoning and situated decision-making in collaborative settings.
- Abstract(参考訳): CARMAは,人間-ロボットグループ間相互作用における状況的接地システムである。
このようなグループ設定での効果的なコラボレーションは、アクターや操作対象に関する出来事のエピソジックな抽象化と結合した、現在人とオブジェクトの一貫性のある表現に基づく状況認識を必要とする。
これにより、明確に一貫したインスタンスの割り当てが求められ、ロボットが時間とともにアクター、オブジェクト、そしてそれらのインタラクションを正しく認識し追跡することを保証する。
これを実現するために、CARMAは現実世界におけるそのような実体の物理的インスタンスを独自に識別し、アクター、オブジェクト、アクションの接地された三つ子に分類する。
このアプローチを検証するために、複数の人間とロボットが相互作用する3つの実験を行った。
これらのシナリオは、役割の区別、マルチアクターの認識、一貫したインスタンス識別といったシステムの能力の評価を可能にする。
実験により,このシステムは正確なアクター・アクション・オブジェクトのトリプレットを確実に生成し,時空間的推論や協調的設定における位置決定を必要とするアプリケーションに対して,構造化された堅牢な基盤を提供することができた。
関連論文リスト
- Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph [12.54884302440877]
モバイル探索は、ロボット工学における長年の課題である。
アクティブな相互作用による既存のロボット探査アプローチは、しばしばテーブルトップシーンに制限される。
本稿では,多種多様なオブジェクト関係を符号化し,活発な相互作用による探索を可能にする3Dリレーショナルオブジェクトグラフを提案する。
論文 参考訳(メタデータ) (2025-01-23T02:39:04Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Grounding 3D Scene Affordance From Egocentric Interactions [52.5827242925951]
接地型3Dシーンアベイランスは、3D環境におけるインタラクティブな領域を見つけることを目的としている。
我々は,エゴセントリックなインタラクションから3Dシーンの空き時間を確保するという,新しい課題を紹介した。
論文 参考訳(メタデータ) (2024-09-29T10:46:19Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - How Object Information Improves Skeleton-based Human Action Recognition
in Assembly Tasks [12.349172146831506]
本稿では,物体情報を骨格に基づく行動認識に組み込む新しい手法を提案する。
我々は、物体中心をさらなる骨格関節として扱うことにより、最先端の2つの方法を強化する。
我々の研究は、組み立て作業における人間の行動認識のための骨格関節と物体情報を組み合わせることの利点に光を当てている。
論文 参考訳(メタデータ) (2023-06-09T12:18:14Z) - Effective Actor-centric Human-object Interaction Detection [20.564689533862524]
画像中の人間と物体の相互作用を検出する新しいアクター中心のフレームワークを提案する。
提案手法は,挑戦的なV-COCOとHICO-DETベンチマークの最先端化を実現する。
論文 参考訳(メタデータ) (2022-02-24T10:24:44Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。