Fugu-MT 論文翻訳(概要): Swiss DINO: Efficient and Versatile Vision Framework for On-device Personal Object Search

論文の概要: Swiss DINO: Efficient and Versatile Vision Framework for On-device Personal Object Search

arxiv url: http://arxiv.org/abs/2407.07541v1
Date: Wed, 10 Jul 2024 11:05:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-11 17:01:49.098323
Title: Swiss DINO: Efficient and Versatile Vision Framework for On-device Personal Object Search
Title（参考訳）: スイスのDINO: デバイス上でのパーソナルオブジェクト検索のための高能率かつVersatile Vision Framework
Authors: Kirill Paramonov, Jia-Xing Zhong, Umberto Michieli, Jijoong Moon, Mete Ozay,
Abstract要約: 本稿では,最近のDINOv2変換モデルに基づく一括個人オブジェクト検索のためのフレームワークを提案する。スイスのDINOは、デバイス上でパーソナライズされたシーン理解の要件に挑戦し、適応トレーニングを必要としない。
参考スコア（独自算出の注目度）: 21.223913863814367
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we address a recent trend in robotic home appliances to include vision systems on personal devices, capable of personalizing the appliances on the fly. In particular, we formulate and address an important technical task of personal object search, which involves localization and identification of personal items of interest on images captured by robotic appliances, with each item referenced only by a few annotated images. The task is crucial for robotic home appliances and mobile systems, which need to process personal visual scenes or to operate with particular personal objects (e.g., for grasping or navigation). In practice, personal object search presents two main technical challenges. First, a robot vision system needs to be able to distinguish between many fine-grained classes, in the presence of occlusions and clutter. Second, the strict resource requirements for the on-device system restrict the usage of most state-of-the-art methods for few-shot learning and often prevent on-device adaptation. In this work, we propose Swiss DINO: a simple yet effective framework for one-shot personal object search based on the recent DINOv2 transformer model, which was shown to have strong zero-shot generalization properties. Swiss DINO handles challenging on-device personalized scene understanding requirements and does not require any adaptation training. We show significant improvement (up to 55%) in segmentation and recognition accuracy compared to the common lightweight solutions, and significant footprint reduction of backbone inference time (up to 100x) and GPU consumption (up to 10x) compared to the heavy transformer-based solutions.
Abstract（参考訳）: 本稿では,ロボット家電がパーソナルデバイスにビジョンシステムを導入し,家電機器をその場でパーソナライズする最近の動向について述べる。特に,ロボット機器が取得した画像に注目する個人項目の局所化と識別を含む,個人対象探索における重要な技術的課題を定式化し,対処する。このタスクは、パーソナルな視覚シーンを処理したり、特定の個人的オブジェクト(例えば、把握やナビゲーションのために)で操作する必要があるロボット家電やモバイルシステムにとって不可欠である。実際に、個人オブジェクト検索は2つの主要な技術的課題を提示している。まず、ロボットビジョンシステムは、オクルージョンとクラッタの存在下で、多くのきめ細かいクラスを区別できる必要がある。第二に、オンデバイスシステムの厳格なリソース要件は、いくつかのショット学習における最先端メソッドの使用を制限し、オンデバイス適応を阻害することが多い。本研究では,最近のDINOv2変圧器モデルに基づく一発個人オブジェクト探索のための簡易かつ効果的なフレームワークであるSwiss DINOを提案する。スイスのDINOは、デバイス上でパーソナライズされたシーン理解の要件に挑戦し、適応トレーニングを必要としない。また,重変圧器をベースとしたソリューションと比較して,バックボーン推定時間 (100倍) とGPU消費 (10倍) の大幅なフットプリント削減効果を示した。

関連論文リスト

Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文参考訳（メタデータ） (2024-10-30T17:37:31Z)
Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。 SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文参考訳（メタデータ） (2024-04-08T15:22:38Z)
Challenges for Monocular 6D Object Pose Estimation in Robotics [12.037567673872662]
ロボット工学とコンピュータビジョンの両方から、最近の出版物について統一された視点を提供する。我々は,オクルージョン処理,新しいポーズ表現,カテゴリーレベルのポーズ推定の形式化と改善が依然として基本的な課題であることがわかった。これらの問題に対処するためには、オントロジ的推論、変形可能性処理、シーンレベルの推論、現実的なデータセット、アルゴリズムの生態的フットプリントを改善する必要がある。
論文参考訳（メタデータ） (2023-07-22T21:36:57Z)
Universal Object Detection with Large Vision Model [79.06618136217142]
本研究は,大規模多領域普遍物体検出問題に焦点をあてる。これらの課題に対処するために,ラベル処理,階層型設計,資源効率のよいモデルトレーニングを提案する。本手法は,ロバスト・ビジョン・チャレンジ2022のオブジェクト検出トラックにおいて,優れた2位の地位を確保した。
論文参考訳（メタデータ） (2022-12-19T12:40:13Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
Semantically Grounded Object Matching for Robust Robotic Scene Rearrangement [21.736603698556042]
そこで本研究では,大規模な事前学習型視覚言語モデルを用いて,オブジェクトをクロスインスタンス設定でマッチングするオブジェクトマッチング手法を提案する。これにより、クロスインスタンス環境でのマッチング性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2021-11-15T18:39:43Z)
Simultaneous Multi-View Object Recognition and Grasping in Open-Ended Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文参考訳（メタデータ） (2021-06-03T14:12:11Z)
Simultaneous Navigation and Construction Benchmarking Environments [73.0706832393065]
モバイル構築のためのインテリジェントなロボット、環境をナビゲートし、幾何学的設計に従ってその構造を変更するプロセスが必要です。このタスクでは、ロボットのビジョンと学習の大きな課題は、GPSなしでデザインを正確に達成する方法です。我々は,手工芸政策の性能を,基礎的なローカライゼーションと計画,最先端の深層強化学習手法を用いて評価した。
論文参考訳（メタデータ） (2021-03-31T00:05:54Z)
Reactive Human-to-Robot Handovers of Arbitrary Objects [57.845894608577495]
本稿では、未知の物体の人間とロボットのハンドオーバを可能にするビジョンベースシステムを提案する。提案手法は,クローズドループ運動計画とリアルタイムかつ時間的に一貫性のあるグリップ生成を組み合わせたものである。提案手法の汎用性,ユーザビリティ,ロバスト性を,26種類の家庭用オブジェクトからなる新しいベンチマークで実証した。
論文参考訳（メタデータ） (2020-11-17T21:52:22Z)
Distributed Reinforcement Learning of Targeted Grasping with Active Vision for Mobile Manipulators [4.317864702902075]
移動体マニピュレータのための最初のRLベースのシステムを提案する。これは、(a)対象対象物に対する目標把握の一般化を実現し、(b)隠蔽対象物による乱れたシーンの複雑な把握戦略を学習し、(c)可動式手首カメラでアクティブなビジョンを実行し、オブジェクトの発見をより良くする。シミュレーション環境でシステムのトレーニングと評価を行い,性能向上,動作解析,実環境への移動といった重要なコンポーネントを特定した。
論文参考訳（メタデータ） (2020-07-16T02:47:48Z)
DEEVA: A Deep Learning and IoT Based Computer Vision System to Address Safety and Security of Production Sites in Energy Industry [0.0]
本稿では,シーン分類,シーン中のオブジェクト検出,セマンティックセグメンテーション,シーンキャプションなど,さまざまなコンピュータビジョンに関わる問題に取り組む。我々は、シーン分類、オブジェクト検出、セマンティックセグメンテーション、シーンのキャプションを扱うためのDeep ExxonMobil Eye for Video Analysis (DEEVA)パッケージを開発した。その結果, RetinaNet物体検出器を用いた伝達学習により, 作業者の存在, 車両・建設機器の種類, 安全関連物体を高い精度(90%以上)で検出できることがわかった。
論文参考訳（メタデータ） (2020-03-02T21:26:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。