論文の概要: Open-Vocabulary Mobile Manipulation Based on Double Relaxed Contrastive Learning with Dense Labeling
- arxiv url: http://arxiv.org/abs/2412.16576v1
- Date: Sat, 21 Dec 2024 10:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:54.776376
- Title: Open-Vocabulary Mobile Manipulation Based on Double Relaxed Contrastive Learning with Dense Labeling
- Title(参考訳): Dense Labeling を用いた二重緩和型コントラスト学習に基づく開語彙移動操作
- Authors: Daichi Yashima, Ryosuke Korekata, Komei Sugiura,
- Abstract要約: オープン語彙の指示に基づいて,日常的な物体を特定の家具に搬送するDSRを開発した。
本手法は,室内環境の事前収集画像から対象物と受容物の画像を取得することに焦点を当てる。
本稿では, 正, ラベルなし, 負のサンプルの中から多様で頑健な表現を学習するRelaX-Formerを提案する。
- 参考スコア(独自算出の注目度): 0.9558392439655016
- License:
- Abstract: Growing labor shortages are increasing the demand for domestic service robots (DSRs) to assist in various settings. In this study, we develop a DSR that transports everyday objects to specified pieces of furniture based on open-vocabulary instructions. Our approach focuses on retrieving images of target objects and receptacles from pre-collected images of indoor environments. For example, given an instruction "Please get the right red towel hanging on the metal towel rack and put it in the white washing machine on the left," the DSR is expected to carry the red towel to the washing machine based on the retrieved images. This is challenging because the correct images should be retrieved from thousands of collected images, which may include many images of similar towels and appliances. To address this, we propose RelaX-Former, which learns diverse and robust representations from among positive, unlabeled positive, and negative samples. We evaluated RelaX-Former on a dataset containing real-world indoor images and human annotated instructions including complex referring expressions. The experimental results demonstrate that RelaX-Former outperformed existing baseline models across standard image retrieval metrics. Moreover, we performed physical experiments using a DSR to evaluate the performance of our approach in a zero-shot transfer setting. The experiments involved the DSR to carry objects to specific receptacles based on open-vocabulary instructions, achieving an overall success rate of 75%.
- Abstract(参考訳): 労働力不足の増大により、様々な環境に対応するための国内サービスロボット(DSR)の需要が高まっている。
本研究では, 日常的な物体を特定の家具に移動させるDSRを, オープンボキャブラリの指示に基づいて開発する。
本手法は,室内環境の事前収集画像から対象物と受容物の画像を取得することに焦点を当てる。
例えば、「右の赤いタオルを金属製のタオルラックに掛けて、左の白い洗濯機に入れなさい」と指示された場合、DSRは取得した画像に基づいて、赤いタオルを洗濯機に運ぶことが期待されている。
何千もの収集された画像から正しい画像を取り出す必要があるため、同様のタオルやアプライアンスの多くの画像を含む可能性があるため、これは難しい。
そこで本稿では, 正, ラベルなし, 負のサンプルの中から多様で頑健な表現を学習するRelaX-Formerを提案する。
我々はRelaX-Formerを実世界の屋内画像と複雑な参照表現を含む人間の注釈付き指示を含むデータセット上で評価した。
実験結果から、RelaX-Formerは標準画像検索指標で既存のベースラインモデルを上回る性能を示した。
さらに、DSRを用いて物理実験を行い、ゼロショット転送環境でのアプローチの性能評価を行った。
実験では、DSRはオープン語彙の指示に基づいて特定のレセプタクルにオブジェクトを運ぶことができ、全体の成功率は75%に達した。
関連論文リスト
- Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - DM2RM: Dual-Mode Multimodal Ranking for Target Objects and Receptacles Based on Open-Vocabulary Instructions [0.815557531820863]
本稿では,対象オブジェクトとレセプタクルの両方のイメージを検索するDual-Mode Multimodal Ranking Model (DM2RM)を提案する。
DM2RMを評価するために,数百のビルスケール環境から収集した実世界の画像を含む新しいデータセットを構築した。
DM2RMの標準化された実世界のDSRプラットフォームへの応用を実演する。
論文 参考訳(メタデータ) (2024-08-15T03:34:02Z) - Modality-Aware Representation Learning for Zero-shot Sketch-based Image
Retrieval [10.568851068989973]
ゼロショット学習は、機械学習モデルが目に見えないカテゴリを扱うための効率的なソリューションを提供する。
そこで本研究では,スケッチや写真をテキストで対比して間接的にアライメントする新しいフレームワークを提案する。
データから学習したモダリティを明示的に符号化することで、モダリティ固有の情報からモダリティに依存しないセマンティクスを分離する。
論文 参考訳(メタデータ) (2024-01-10T00:39:03Z) - Advancing Image Retrieval with Few-Shot Learning and Relevance Feedback [5.770351255180495]
Image Retrieval with Relevance Feedback (IRRF) は、検索プロセス中に反復的なヒューマンインタラクションを伴う。
本稿では,タスクに適したハイパーネットワークに基づく新しいスキームを提案し,ユーザフィードバックの迅速な調整を容易にする。
提案手法は,数発の1クラス分類でSoTAを達成でき,数発のオープンセット認識のバイナリ分類タスクで同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2023-12-18T10:20:28Z) - Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Inverse Problems Leveraging Pre-trained Contrastive Representations [88.70821497369785]
破損したデータの表現を復元するための新しい逆問題群について検討する。
コントラスト目的を用いた教師付きインバージョン手法を提案する。
提案手法は,幅広いフォワード演算子においてラベル付きデータのごく一部であっても,エンド・ツー・エンドのベースラインよりも優れる。
論文 参考訳(メタデータ) (2021-10-14T15:06:30Z) - Learning Conditional Knowledge Distillation for Degraded-Reference Image
Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。
DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。
私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文 参考訳(メタデータ) (2021-08-18T02:35:08Z) - Semantic-embedded Unsupervised Spectral Reconstruction from Single RGB
Images in the Wild [48.44194221801609]
この課題に対処するため、我々は、新しい軽量でエンドツーエンドの学習ベースのフレームワークを提案する。
我々は、効率的なカメラスペクトル応答関数推定により、検索されたHS画像から入力されたRGB画像と再投影されたRGB画像の差を徐々に広げる。
提案手法は最先端の教師なし手法よりも優れており,いくつかの設定下では最新の教師付き手法よりも優れている。
論文 参考訳(メタデータ) (2021-08-15T05:19:44Z) - Learning to Zoom-in via Learning to Zoom-out: Real-world
Super-resolution by Generating and Adapting Degradation [91.40265983636839]
本稿では,SR を任意の LR と HR 画像から学習するためのフレームワークを提案する。
我々は、劣化適応SRネットワークを学習しながら、生成されたデータと実データとの差を最小限にする。
提案手法は,ペア学習法をより好むデータセットであっても,実世界の画像上での最先端のSR結果を実現する。
論文 参考訳(メタデータ) (2020-01-08T05:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。