論文の概要: Ablation Study of Multimodal Perception, Language Grounding, and Control for Human-Robot Interaction in an Object Detection and Grasping Task
- arxiv url: http://arxiv.org/abs/2605.00963v1
- Date: Fri, 01 May 2026 15:04:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.516452
- Title: Ablation Study of Multimodal Perception, Language Grounding, and Control for Human-Robot Interaction in an Object Detection and Grasping Task
- Title(参考訳): 物体検出・把持作業における人間とロボットの相互作用に対するマルチモーダル知覚・言語接地・制御のアブレーション研究
- Authors: Zi Tian, Guanting Shen,
- Abstract要約: 本論文は,従来のマルチモーダルな人間-ロボットインタラクションシステムを拡張し,エンドツーエンドのパフォーマンスに最も強い影響を与える3つのモジュールについて,制御されたアブレーション研究を導入する。
目標は、パイプライン全体を再設計するのではなく、共通の実験プロトコルの下で各コンポーネントのコントリビューションを分離し、エンドツーエンドで最高の組み合わせを評価することだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This manuscript extends our previous multimodal human-robot interaction system by introducing a controlled ablation study of the three modules that most strongly influence end-to-end performance: the large language model used for action extraction, the perception system used for visual grounding, and the controller used for motion execution. The goal is not to redesign the full pipeline, but to isolate the contribution of each component under a common experimental protocol and then evaluate the best combinations end-to-end. We therefore compare three language models, five perception configurations, and three controllers, followed by a second-stage factorial study over the best candidates. The resulting analysis is intended to clarify which choices primarily affect execution time, which primarily affect success rate, and where the largest engineering gains are likely to come from in future revisions of the system.
- Abstract(参考訳): 本論文は,動作抽出に用いる大規模言語モデル,視覚的接地に用いる知覚システム,動作実行に用いるコントローラという,エンドツーエンドのパフォーマンスに最も強く影響を及ぼす3つのモジュールについて,制御されたアブレーション研究を導入することで,これまでのマルチモーダルなヒューマンロボットインタラクションシステムを拡張した。
目標は、パイプライン全体を再設計するのではなく、共通の実験プロトコルの下で各コンポーネントのコントリビューションを分離し、エンドツーエンドで最高の組み合わせを評価することだ。
そこで,3つの言語モデル,5つの知覚構成,3つのコントローラを比較した。
結果として得られた分析は、どの選択が実行時間に大きく影響するか、主に成功率に影響を及ぼすか、そして、システムの将来の改訂で最大のエンジニアリング上の利益がどこから来るかを明らかにすることを目的としている。
関連論文リスト
- PCoKG: Personality-aware Commonsense Reasoning with Debate [32.49722822521962]
Personality-Aware Commonsense Knowledge Graph (PCoKG)は、521,316個の4倍数からなる構造化データセットである。
知識グラフ構築には,大規模言語モデルのロールプレイング機能を活用する。
我々はPCoKGをペルソナに基づく対話生成に適用し、生成した応答と参照出力との整合性の改善を示す。
論文 参考訳(メタデータ) (2026-01-09T15:05:01Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Gaussian Image Anomaly Detection with Greedy Eigencomponent Selection [0.0]
画像中の異常検出(AD)は、正常性から重要な逸脱を識別するものであり、コンピュータビジョンにおいて重要な問題である。
本稿では,EfficientNet モデルを組み込んだ事前学習型畳み込みニューラルネットワーク (CNN) を用いた AD の次元削減手法を提案する。
提案手法は主成分分析 (PCA) と負成分分析 (NPCA) のいずれよりも検出精度が高いことを示す。
論文 参考訳(メタデータ) (2023-08-09T13:19:28Z) - Body Segmentation Using Multi-task Learning [1.0832844764942349]
本稿では,3つのタスクを伴い,人間のセグメンテーション/パーシングのための新しいマルチタスクモデルを提案する。
提案された--Pose--DensePoseモデル(略してSPD)の背景にある主な考え方は、異なるが関連するタスク間で知識を共有することによって、より良いセグメンテーションモデルを学ぶことである。
モデルの性能は、LIPおよびATRデータセットの厳密な実験により分析され、最近の(最先端)マルチタスクボディセグメンテーションモデルと比較される。
論文 参考訳(メタデータ) (2022-12-13T13:06:21Z) - Multi-modal Multi-label Facial Action Unit Detection with Transformer [7.30287060715476]
本稿では,第3回ABAW(Affective Behavior Analysis)2022コンペティションについて述べる。
映像中の顔行動単位(FAU)を検出するためのトランスフォーマーモデルを提案した。
論文 参考訳(メタデータ) (2022-03-24T18:59:31Z) - Effects of Word-frequency based Pre- and Post- Processings for Audio
Captioning [49.41766997393417]
音響シーン・イベントの検出・分類のタスク6(自動音声キャプション)に使用したシステム(DCASE)2020 Challengeは,音声キャプションのためのデータ拡張,マルチタスク学習,ポストプロセッシングという3つの要素を組み合わせる。
このシステムは評価スコアが最も高いが、個々の要素のどれがパーフォーマンスに最も貢献したかはまだ明らかになっていない。
論文 参考訳(メタデータ) (2020-09-24T01:07:33Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。