論文の概要: Semantic Image Search for Robotic Applications
- arxiv url: http://arxiv.org/abs/2004.02607v1
- Date: Thu, 2 Apr 2020 08:09:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 10:05:12.020866
- Title: Semantic Image Search for Robotic Applications
- Title(参考訳): ロボット応用のためのセマンティック画像検索
- Authors: Tomas Kulvicius, Irene Markelic, Minija Tamosiunaite and Florentin
W\"org\"otter
- Abstract要約: ロボット工学における一般化は、最も重要な問題の一つである。
現代の検索エンジンは、ミリ秒以内のクエリに従って大量の情報を返すことができる。
本稿では,画像検索による対象一般化の問題に対処する。
- 参考スコア(独自算出の注目度): 3.630277448580974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization in robotics is one of the most important problems. New
generalization approaches use internet databases in order to solve new tasks.
Modern search engines can return a large amount of information according to a
query within milliseconds. However, not all of the returned information is task
relevant, partly due to the problem of polysemes. Here we specifically address
the problem of object generalization by using image search. We suggest a
bi-modal solution, combining visual and textual information, based on the
observation that humans use additional linguistic cues to demarcate intended
word meaning. We evaluate the quality of our approach by comparing it to human
labelled data and find that, on average, our approach leads to improved results
in comparison to Google searches, and that it can treat the problem of
polysemes.
- Abstract(参考訳): ロボット工学における一般化は最も重要な問題の1つである。
新しい一般化アプローチは、新しいタスクを解決するためにインターネットデータベースを使用する。
現代の検索エンジンは、ミリ秒以内のクエリに従って大量の情報を返すことができる。
しかし、ポリセムの問題もあって、返却された全ての情報がタスクに関連しているわけではない。
本稿では,画像検索による対象一般化の問題に対処する。
視覚情報とテキスト情報を組み合わせたバイモーダルな解法を提案する。
人間のラベル付きデータと比較することで,提案手法の質を評価した結果, 平均して, 提案手法は検索結果の改善につながり, ポリセムの問題に対処できることがわかった。
関連論文リスト
- Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。
我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。
現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文 参考訳(メタデータ) (2024-07-01T17:07:55Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - Can Large Language Models Solve Robot Routing? [13.672207504142456]
大規模言語モデル(LLM)は、自然言語で記述されたタスクからロボットルートの生成へとパイプライン全体を置き換えることができる。
単一ロボットとマルチロボットの両方の設定において、8つの変種にまたがる80のユニークなロボットルーティング問題を持つデータセットを構築した。
その結果, 自己検証と自己検証は, 最適性ギャップを著しく低下させることなく, 成功率を高めることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-16T03:54:38Z) - Zero-shot Clarifying Question Generation for Conversational Search [25.514678546942754]
本稿では,質問テンプレートとクエリファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き質問生成システムを提案する。
実験の結果,提案手法は既存のゼロショットベースラインよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2023-01-30T04:43:02Z) - Regularized Contrastive Learning of Semantic Search [0.0]
トランスフォーマーベースのモデルは、セマンティック表現を学習する能力に優れたため、検索モデルとして広く利用されている。
本稿では,正規化コントラスト学習という新たな正規化手法を提案する。
文ごとに異なるセマンティック表現を増補し、レギュレータとして対照的な目的に含める。
論文 参考訳(メタデータ) (2022-09-27T08:25:19Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - Semantics for Robotic Mapping, Perception and Interaction: A Survey [93.93587844202534]
理解の研究は、ロボットに世界が何を意味するのかを決定する。
人間とロボットが同じ世界で活動するようになるにつれ、人間とロボットの相互作用の展望も意味論をもたらす。
ニーズや、トレーニングデータや計算リソースの可用性向上などによって駆動されるセマンティックスは、ロボティクスにおける急速に成長している研究領域である。
論文 参考訳(メタデータ) (2021-01-02T12:34:39Z) - If beam search is the answer, what was the question? [78.71330480725668]
ビームサーチは、認知科学に動機づけられた特性であるテキストの均一な情報密度を強制する。
この特性を明示的に強制する復号対象のセットを提案し、これらの目的による正確な復号化は、校正の不十分な言語生成モデルの復号時に発生する問題を緩和する。
論文 参考訳(メタデータ) (2020-10-06T11:57:03Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z) - TopicBERT: A Transformer transfer learning based memory-graph approach
for multimodal streaming social media topic detection [8.338441212378587]
急激な短いメッセージと、様々なトピックにまたがる大規模なデータスケールを持つソーシャルネットワークは、多くの研究者の関心を集めている。
ビッグデータの5'Vとして知られるこれらのソーシャルネットワークの特性は、大規模なソーシャルネットワークデータセットやデータストリームに適用される多くのユニークで啓蒙的なアルゴリズムやテクニックを生み出している。
論文 参考訳(メタデータ) (2020-08-16T10:39:50Z) - Interactive Natural Language-based Person Search [15.473033192858543]
人間の記述を効果的に取得するアルゴリズムの設計法について検討する。
視覚的および言語的理解に使用されるモデルを用いて、興味ある人(POI)を原則的に検索するアルゴリズムを提案する。
次に、ロボットがPOIの外観に関する追加情報を要求できる反復的質問応答(QA)戦略について検討する。
論文 参考訳(メタデータ) (2020-02-19T20:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。