論文の概要: Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine
- arxiv url: http://arxiv.org/abs/2312.15844v1
- Date: Tue, 26 Dec 2023 01:40:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:05:24.198617
- Title: Learning-To-Rank Approach for Identifying Everyday Objects Using a
Physical-World Search Engine
- Title(参考訳): 物理世界検索エンジンを用いた日常物体識別のための学習からランクへのアプローチ
- Authors: Kanta Kaneda, Shunya Nagashima, Ryosuke Korekata, Motonari Kambara and
Komei Sugiura
- Abstract要約: 我々は,オープン語彙のユーザ命令から対象オブジェクトをループで検索する作業に焦点をあてる。
本稿では,学習からランクの物理オブジェクトタスクのための新しいアプローチであるMultiRankItを提案する。
- 参考スコア(独自算出の注目度): 0.8749675983608172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domestic service robots offer a solution to the increasing demand for daily
care and support. A human-in-the-loop approach that combines automation and
operator intervention is considered to be a realistic approach to their use in
society. Therefore, we focus on the task of retrieving target objects from
open-vocabulary user instructions in a human-in-the-loop setting, which we
define as the learning-to-rank physical objects (LTRPO) task. For example,
given the instruction "Please go to the dining room which has a round table.
Pick up the bottle on it," the model is required to output a ranked list of
target objects that the operator/user can select. In this paper, we propose
MultiRankIt, which is a novel approach for the LTRPO task. MultiRankIt
introduces the Crossmodal Noun Phrase Encoder to model the relationship between
phrases that contain referring expressions and the target bounding box, and the
Crossmodal Region Feature Encoder to model the relationship between the target
object and multiple images of its surrounding contextual environment.
Additionally, we built a new dataset for the LTRPO task that consists of
instructions with complex referring expressions accompanied by real indoor
environmental images that feature various target objects. We validated our
model on the dataset and it outperformed the baseline method in terms of the
mean reciprocal rank and recall@k. Furthermore, we conducted physical
experiments in a setting where a domestic service robot retrieved everyday
objects in a standardized domestic environment, based on users' instruction in
a human--in--the--loop setting. The experimental results demonstrate that the
success rate for object retrieval achieved 80%. Our code is available at
https://github.com/keio-smilab23/MultiRankIt.
- Abstract(参考訳): 家庭内サービスロボットは、日々のケアとサポートの需要の増加に対する解決策を提供する。
自動化とオペレータの介入を組み合わせたヒューマン・イン・ザ・ループ(human-in-the-loop)アプローチは、社会における彼らの使用に対する現実的なアプローチであると考えられている。
そこで本稿では,LTRPO(Learning-to-rank physical objects)タスクとして定義するHuman-in-the-loop設定において,オープン語彙のユーザ命令から対象オブジェクトを取得するタスクに着目した。
例えば、"テーブルが丸いダイニングルームへ行ってボトルを拾う"という命令が与えられた場合、そのモデルでは、オペレータ/ユーザが選択できるターゲットオブジェクトのランク付けリストを出力する必要がある。
本稿では,LTRPOタスクの新しいアプローチであるMultiRankItを提案する。
MultiRankItでは、参照表現と対象境界ボックスを含むフレーズ間の関係をモデル化するクロスモーダル名詞句エンコーダと、対象オブジェクトと周辺環境の複数の画像の関係をモデル化するクロスモーダル地域特徴エンコーダを導入している。
さらに, LTRPOタスクのための新しいデータセットを構築し, 複雑な参照表現と, 様々な対象物体を特徴とする実環境イメージを伴って構築した。
我々はデータセット上でモデルを検証し、平均的相互ランクとリコール@kでベースライン法を上回りました。
さらに,人間のループ環境におけるユーザの指示に基づき,国内サービスロボットが標準化された国内環境において日常オブジェクトを検索する環境において,物理的実験を行った。
実験の結果,対象物検索の成功率は80%であった。
私たちのコードはhttps://github.com/keio-smilab23/MultiRankItで利用可能です。
関連論文リスト
- Leverage Task Context for Object Affordance Ranking [57.59106517732223]
25の共通タスク、50k以上の画像、661k以上のオブジェクトからなる、最初の大規模タスク指向のアベイランスランキングデータセットを構築しました。
その結果,タスクコンテキストに基づくアベイランス学習のパラダイムの実現可能性と,サリエンシランキングやマルチモーダルオブジェクト検出の分野における最先端モデルよりも,我々のモデルの方が優れていることが示された。
論文 参考訳(メタデータ) (2024-11-25T04:22:33Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Switching Head-Tail Funnel UNITER for Dual Referring Expression
Comprehension with Fetch-and-Carry Tasks [3.248019437833647]
本稿では,日常的な対象物を収集し,自由形式の自然言語指示に従って特定の目的地へ搬送するホームサービスロボットについて述べる。
既存の多モーダル言語理解手法のほとんどは、計算複雑性の観点からは実用的ではない。
対象物と宛先を1つのモデルで個別に予測することでタスクを解決できるスイッチングヘッドタイルファンネルUNITERを提案する。
論文 参考訳(メタデータ) (2023-07-14T05:27:56Z) - Lifelong Ensemble Learning based on Multiple Representations for
Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。
生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。
提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文 参考訳(メタデータ) (2022-05-04T10:29:10Z) - Target-dependent UNITER: A Transformer-Based Multimodal Language
Comprehension Model for Domestic Service Robots [0.0]
画像内の関連領域に着目し,対象オブジェクトと他のオブジェクトの関係を直接学習するターゲット依存型UNITERを提案する。
提案手法は,汎用データセット上で事前学習が可能なUNITERベースのトランスフォーマーの拡張である。
本モデルでは,2つの標準データセットに対して検証を行い,分類精度の点で,ターゲット依存型UNITERがベースライン法より優れていることを示す。
論文 参考訳(メタデータ) (2021-07-02T03:11:02Z) - Exploring Relational Context for Multi-Task Dense Prediction [76.86090370115]
我々は,共通バックボーンと独立タスク固有のヘッドで表される,密集予測タスクのためのマルチタスク環境を考える。
マルチタスク設定では,グローバルやローカルなど,さまざまな注意に基づくコンテキストを探索する。
タスクペアごとに利用可能なすべてのコンテキストのプールをサンプリングするAdaptive Task-Relational Contextモジュールを提案する。
論文 参考訳(メタデータ) (2021-04-28T16:45:56Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。