Fugu-MT 論文翻訳(概要): Show, Don't Tell: Detecting Novel Objects by Watching Human Videos

論文の概要: Show, Don't Tell: Detecting Novel Objects by Watching Human Videos

arxiv url: http://arxiv.org/abs/2603.12751v1
Date: Fri, 13 Mar 2026 07:49:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-16 17:38:11.980656
Title: Show, Don't Tell: Detecting Novel Objects by Watching Human Videos
Title（参考訳）: 人間の映像で新しい物体を検知する「Show, Don't Tell」
Authors: James Akl, Jose Nicolas Avendano Arbelaez, James Barabas, Jennifer L. Barry, Kalie Ching, Noam Eshed, Jiahui Fu, Michel Hidalgo, Andrew Hoelscher, Tushar Kusnur, Andrew Messing, Zachary Nagler, Brian Okorn, Mauro Passerino, Tim J. Perkins, Eric Rosen, Ankit Shah, Tanmay Shankar, Scott Shaw,
Abstract要約: というパラダイムは、人間のタスクのデモンストレーションで観察された関連オブジェクトに合わせて、ベスポーク検知器を素早く訓練することを可能にする。実世界のロボットに自動データセット作成と新しいオブジェクト検出のパラダイム「Show, Don't Tell」をデプロイする統合オンロボットシステムを開発した。
参考スコア（独自算出の注目度）: 7.501069961942297
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: How can a robot quickly identify and recognize new objects shown to it during a human demonstration? Existing closed-set object detectors frequently fail at this because the objects are out-of-distribution. While open-set detectors (e.g., VLMs) sometimes succeed, they often require expensive and tedious human-in-the-loop prompt engineering to uniquely recognize novel object instances. In this paper, we present a self-supervised system that eliminates the need for tedious language descriptions and expensive prompt engineering by training a bespoke object detector on an automatically created dataset, supervised by the human demonstration itself. In our approach, "Show, Don't Tell," we show the detector the specific objects of interest during the demonstration, rather than telling the detector about these objects via complex language descriptions. By bypassing language altogether, this paradigm enables us to quickly train bespoke detectors tailored to the relevant objects observed in human task demonstrations. We develop an integrated on-robot system to deploy our "Show, Don't Tell" paradigm of automatic dataset creation and novel object-detection on a real-world robot. Empirical results demonstrate that our pipeline significantly outperforms state-of-the-art detection and recognition methods for manipulated objects, leading to improved task completion for the robot.
Abstract（参考訳）: ロボットは、人間のデモ中に表示された新しい物体を素早く識別し、認識できるのか? 既存のクローズドセットオブジェクト検出器は、オブジェクトが分布外であるため、しばしば失敗する。オープンセット検出器(例えばVLM)が成功することもあるが、新しいオブジェクトのインスタンスをユニークに認識するためには、高価で面倒な人間間プロンプトエンジニアリングが必要となることが多い。本稿では,自動生成データセット上で,人間の実演自体を教師するベスパイクオブジェクト検出装置をトレーニングすることにより,退屈な言語記述や高価なプロンプトエンジニアリングの必要性を解消する自己教師システムを提案する。筆者らのアプローチである"Show, Don't Tell"では、複雑な言語記述を通してこれらのオブジェクトについて検出器に伝えるのではなく、デモ中の特定の対象を検出器に示す。このパラダイムは、言語を完全にバイパスすることで、人間のタスクのデモンストレーションで観察された関連オブジェクトに合わせて、ベスポーク検出器を迅速に訓練することを可能にする。実世界のロボットに自動データセット作成と新しいオブジェクト検出のパラダイム「Show, Don't Tell」をデプロイする統合オンロボットシステムを開発した。実験結果から,我々のパイプラインは操作対象の最先端検出・認識手法よりも優れており,ロボットのタスク完了が向上することが示された。

関連論文リスト

Slot-Level Robotic Placement via Visual Imitation from Single Human Video [43.71981951957892]
人間のデモビデオを用いてロボットに新しいタスクを教えるという課題に対処する。本稿では,複数の高度な視覚基盤モデルとスロットレベル配置検出器Slot-Netを活用するモジュールシステムであるSLeRPを提案する。
論文参考訳（メタデータ） (2025-04-02T17:59:45Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
DetGPT: Detect What You Need via Reasoning [33.00345609506097]
我々は、推論に基づくオブジェクト検出と呼ばれる、オブジェクト検出のための新しいパラダイムを導入する。特定のオブジェクト名に依存する従来のオブジェクト検出方法とは異なり,本手法では自然言語命令を用いてシステムと対話することが可能である。提案手法はDetGPTと呼ばれ,最先端のマルチモーダルモデルとオープンボキャブラリオブジェクト検出器を利用する。
論文参考訳（メタデータ） (2023-05-23T15:37:28Z)
Challenges in Visual Anomaly Detection for Mobile Robots [65.53820325712455]
視覚に基づく自律移動ロボットの異常検出作業について考察する。関連した視覚異常の種類を分類し,教師なしの深層学習手法で検出する方法について議論する。
論文参考訳（メタデータ） (2022-09-22T13:26:46Z)
Task-Focused Few-Shot Object Detection for Robot Manipulation [1.8275108630751844]
本研究では,検出のみに基づく操作手法を開発し,タスク中心の少数ショット検出を導入し,新しいオブジェクトや設定を学習する。数ショット学習へのインタラクティブなアプローチの実験では、ロボットに検出からオブジェクトを直接操作するように訓練する(ClickBot)。
論文参考訳（メタデータ） (2022-01-28T21:52:05Z)
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文参考訳（メタデータ） (2021-08-25T07:35:21Z)
Property-Aware Robot Object Manipulation: a Generative Approach [57.70237375696411]
本研究では,操作対象の隠れた特性に適応したロボットの動きを生成する方法に焦点を当てた。本稿では,ジェネレーティブ・アドバイサル・ネットワークを利用して,オブジェクトの特性に忠実な新しいアクションを合成する可能性について検討する。以上の結果から,ジェネレーティブ・アドバイサル・ネットは,新規かつ有意義な輸送行動を生み出すための強力なツールとなる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-08T14:15:36Z)
Self-supervised object detection from audio-visual correspondence [101.46794879729453]
我々は、監視なしで物体検出器を学習する問題に取り組む。画像レベルのクラスラベルは想定せず、代わりにオーディオビジュアルデータから監視信号を抽出します。本研究では,航空機やネコなどの機器以外のジェネリック物体の検出を学習できることを示した。
論文参考訳（メタデータ） (2021-04-13T17:59:03Z)
Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文参考訳（メタデータ） (2020-08-11T17:58:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。