論文の概要: Semantic Image Search for Robotic Applications
- arxiv url: http://arxiv.org/abs/2004.02607v1
- Date: Thu, 2 Apr 2020 08:09:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 10:05:12.020866
- Title: Semantic Image Search for Robotic Applications
- Title(参考訳): ロボット応用のためのセマンティック画像検索
- Authors: Tomas Kulvicius, Irene Markelic, Minija Tamosiunaite and Florentin
W\"org\"otter
- Abstract要約: ロボット工学における一般化は、最も重要な問題の一つである。
現代の検索エンジンは、ミリ秒以内のクエリに従って大量の情報を返すことができる。
本稿では,画像検索による対象一般化の問題に対処する。
- 参考スコア(独自算出の注目度): 3.630277448580974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization in robotics is one of the most important problems. New
generalization approaches use internet databases in order to solve new tasks.
Modern search engines can return a large amount of information according to a
query within milliseconds. However, not all of the returned information is task
relevant, partly due to the problem of polysemes. Here we specifically address
the problem of object generalization by using image search. We suggest a
bi-modal solution, combining visual and textual information, based on the
observation that humans use additional linguistic cues to demarcate intended
word meaning. We evaluate the quality of our approach by comparing it to human
labelled data and find that, on average, our approach leads to improved results
in comparison to Google searches, and that it can treat the problem of
polysemes.
- Abstract(参考訳): ロボット工学における一般化は最も重要な問題の1つである。
新しい一般化アプローチは、新しいタスクを解決するためにインターネットデータベースを使用する。
現代の検索エンジンは、ミリ秒以内のクエリに従って大量の情報を返すことができる。
しかし、ポリセムの問題もあって、返却された全ての情報がタスクに関連しているわけではない。
本稿では,画像検索による対象一般化の問題に対処する。
視覚情報とテキスト情報を組み合わせたバイモーダルな解法を提案する。
人間のラベル付きデータと比較することで,提案手法の質を評価した結果, 平均して, 提案手法は検索結果の改善につながり, ポリセムの問題に対処できることがわかった。
関連論文リスト
- Location Aware Modular Biencoder for Tourism Question Answering [33.5507972300392]
本稿では,QAタスクを高密度ベクトル探索問題として扱うことを提案する。
質問とPOIを別々にエンコードし、埋め込み空間の類似性を利用して最も関連性の高いPOIを検索する。
実世界の観光QAデータセットの実験は、我々のアプローチが従来の手法よりも効果的で、効率的で、優れたことを実証している。
論文 参考訳(メタデータ) (2024-01-04T10:39:58Z) - Zero-shot Clarifying Question Generation for Conversational Search [25.514678546942754]
本稿では,質問テンプレートとクエリファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き質問生成システムを提案する。
実験の結果,提案手法は既存のゼロショットベースラインよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-01-30T04:43:02Z) - Regularized Contrastive Learning of Semantic Search [0.0]
トランスフォーマーベースのモデルは、セマンティック表現を学習する能力に優れたため、検索モデルとして広く利用されている。
本稿では,正規化コントラスト学習という新たな正規化手法を提案する。
文ごとに異なるセマンティック表現を増補し、レギュレータとして対照的な目的に含める。
論文 参考訳(メタデータ) (2022-09-27T08:25:19Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Global-Local Context Network for Person Search [125.51080862575326]
パーソンサーチは、自然に切り刻まれた画像からクエリーを共同でローカライズし、識別することを目的としている。
我々は,対象人物を取り巻く環境情報を多様かつ局所的に利用し,それぞれがシーンとグループコンテキストを参照する。
本稿では,機能強化を目的としたグローバル・ローカル・コンテキスト・ネットワーク(GLCNet)を提案する。
論文 参考訳(メタデータ) (2021-12-05T07:38:53Z) - Semantics for Robotic Mapping, Perception and Interaction: A Survey [93.93587844202534]
理解の研究は、ロボットに世界が何を意味するのかを決定する。
人間とロボットが同じ世界で活動するようになるにつれ、人間とロボットの相互作用の展望も意味論をもたらす。
ニーズや、トレーニングデータや計算リソースの可用性向上などによって駆動されるセマンティックスは、ロボティクスにおける急速に成長している研究領域である。
論文 参考訳(メタデータ) (2021-01-02T12:34:39Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - If beam search is the answer, what was the question? [78.71330480725668]
ビームサーチは、認知科学に動機づけられた特性であるテキストの均一な情報密度を強制する。
この特性を明示的に強制する復号対象のセットを提案し、これらの目的による正確な復号化は、校正の不十分な言語生成モデルの復号時に発生する問題を緩和する。
論文 参考訳(メタデータ) (2020-10-06T11:57:03Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z) - TopicBERT: A Transformer transfer learning based memory-graph approach
for multimodal streaming social media topic detection [8.338441212378587]
急激な短いメッセージと、様々なトピックにまたがる大規模なデータスケールを持つソーシャルネットワークは、多くの研究者の関心を集めている。
ビッグデータの5'Vとして知られるこれらのソーシャルネットワークの特性は、大規模なソーシャルネットワークデータセットやデータストリームに適用される多くのユニークで啓蒙的なアルゴリズムやテクニックを生み出している。
論文 参考訳(メタデータ) (2020-08-16T10:39:50Z) - Interactive Natural Language-based Person Search [15.473033192858543]
人間の記述を効果的に取得するアルゴリズムの設計法について検討する。
視覚的および言語的理解に使用されるモデルを用いて、興味ある人(POI)を原則的に検索するアルゴリズムを提案する。
次に、ロボットがPOIの外観に関する追加情報を要求できる反復的質問応答(QA)戦略について検討する。
論文 参考訳(メタデータ) (2020-02-19T20:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。