Fugu-MT 論文翻訳(概要): Semantic Image Search for Robotic Applications

論文の概要: Semantic Image Search for Robotic Applications

arxiv url: http://arxiv.org/abs/2004.02607v1
Date: Thu, 2 Apr 2020 08:09:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-17 10:05:12.020866
Title: Semantic Image Search for Robotic Applications
Title（参考訳）: ロボット応用のためのセマンティック画像検索
Authors: Tomas Kulvicius, Irene Markelic, Minija Tamosiunaite and Florentin W\"org\"otter
Abstract要約: ロボット工学における一般化は、最も重要な問題の一つである。現代の検索エンジンは、ミリ秒以内のクエリに従って大量の情報を返すことができる。本稿では,画像検索による対象一般化の問題に対処する。
参考スコア（独自算出の注目度）: 3.630277448580974
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalization in robotics is one of the most important problems. New generalization approaches use internet databases in order to solve new tasks. Modern search engines can return a large amount of information according to a query within milliseconds. However, not all of the returned information is task relevant, partly due to the problem of polysemes. Here we specifically address the problem of object generalization by using image search. We suggest a bi-modal solution, combining visual and textual information, based on the observation that humans use additional linguistic cues to demarcate intended word meaning. We evaluate the quality of our approach by comparing it to human labelled data and find that, on average, our approach leads to improved results in comparison to Google searches, and that it can treat the problem of polysemes.
Abstract（参考訳）: ロボット工学における一般化は最も重要な問題の1つである。新しい一般化アプローチは、新しいタスクを解決するためにインターネットデータベースを使用する。現代の検索エンジンは、ミリ秒以内のクエリに従って大量の情報を返すことができる。しかし、ポリセムの問題もあって、返却された全ての情報がタスクに関連しているわけではない。本稿では,画像検索による対象一般化の問題に対処する。視覚情報とテキスト情報を組み合わせたバイモーダルな解法を提案する。人間のラベル付きデータと比較することで,提案手法の質を評価した結果, 平均して, 提案手法は検索結果の改善につながり, ポリセムの問題に対処できることがわかった。

関連論文リスト

Search Arena: Analyzing Search-Augmented LLMs [61.28673331156436]
クラウドソーシングで大規模で,24,000以上のペア化されたマルチターンユーザインタラクションの人為的なデータセットであるSearch Arenaを紹介した。データセットはさまざまな意図や言語にまたがっており、人間の好みの投票数約12,000の完全なシステムトレースが含まれている。分析の結果,引用されたコンテンツが属性付クレームを直接サポートしていない場合でも,ユーザの嗜好は引用数に影響されていることが明らかとなった。
論文参考訳（メタデータ） (2025-06-05T17:59:26Z)
Investigating Bias in Political Search Query Suggestions by Relative Comparison with LLMs [1.5356574175312299]
検索クエリの提案のバイアスは、バイアスされた検索結果に露出し、意見の形成に影響を与える可能性がある。我々は、英語の検索クエリー提案において、バイアスを特定し定量化するために、多段階のアプローチを用いる。われわれのアプローチを米国の政治ニュース分野に適用し、GoogleとBingの偏見を比較する。
論文参考訳（メタデータ） (2024-10-31T12:40:38Z)
MindSearch: Mimicking Human Minds Elicits Deep AI Searcher [50.68599514830046]
我々は、Web情報検索と統合における人間の心を模倣するMindSearchを紹介した。このフレームワークは、シンプルだが効果的なLLMベースのマルチエージェントフレームワークによってインスタンス化できる。 MindSearchは、深さと幅の点でレスポンス品質が大幅に改善されている。
論文参考訳（メタデータ） (2024-07-29T17:12:40Z)
Tree Search for Language Model Agents [69.43007235771383]
対話型Web環境での探索と多段階計画を行うために,LMエージェントの推論時探索アルゴリズムを提案する。我々のアプローチは、実環境空間内で機能する最優先木探索の一形態である。現実的なWebタスクにおいて有効性を示すLMエージェントのための最初の木探索アルゴリズムである。
論文参考訳（メタデータ） (2024-07-01T17:07:55Z)
Quriosity: Analyzing Human Questioning Behavior and Causal Inquiry through Curiosity-Driven Queries [91.70689724416698]
本稿では,3つの情報源から自然発生の13.5Kの質問を集めたQuriosityを紹介する。分析の結果,データセットに因果的疑問(最大42%)が存在することが明らかとなった。
論文参考訳（メタデータ） (2024-05-30T17:55:28Z)
CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文参考訳（メタデータ） (2024-04-28T18:21:31Z)
Zero-shot Clarifying Question Generation for Conversational Search [25.514678546942754]
本稿では,質問テンプレートとクエリファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き質問生成システムを提案する。実験の結果,提案手法は既存のゼロショットベースラインよりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2023-01-30T04:43:02Z)
Regularized Contrastive Learning of Semantic Search [0.0]
トランスフォーマーベースのモデルは、セマンティック表現を学習する能力に優れたため、検索モデルとして広く利用されている。本稿では,正規化コントラスト学習という新たな正規化手法を提案する。文ごとに異なるセマンティック表現を増補し、レギュレータとして対照的な目的に含める。
論文参考訳（メタデータ） (2022-09-27T08:25:19Z)
ALADIN: Distilling Fine-grained Alignment Scores for Efficient Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文参考訳（メタデータ） (2022-07-29T16:01:48Z)
Semantics for Robotic Mapping, Perception and Interaction: A Survey [93.93587844202534]
理解の研究は、ロボットに世界が何を意味するのかを決定する。人間とロボットが同じ世界で活動するようになるにつれ、人間とロボットの相互作用の展望も意味論をもたらす。ニーズや、トレーニングデータや計算リソースの可用性向上などによって駆動されるセマンティックスは、ロボティクスにおける急速に成長している研究領域である。
論文参考訳（メタデータ） (2021-01-02T12:34:39Z)
Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation [62.68385635551825]
ディープフェイク(deepfakes)から単純な編集(deepfakes)までの多モーダルな偽情報は、社会的な重要な問題である。この例と偽情報を広める有害な編集の違いは意図の1つである。この意図を認識して記述することは、今日のAIシステムにとって大きな課題である。
論文参考訳（メタデータ） (2020-12-08T20:30:43Z)
If beam search is the answer, what was the question? [78.71330480725668]
ビームサーチは、認知科学に動機づけられた特性であるテキストの均一な情報密度を強制する。この特性を明示的に強制する復号対象のセットを提案し、これらの目的による正確な復号化は、校正の不十分な言語生成モデルの復号時に発生する問題を緩和する。
論文参考訳（メタデータ） (2020-10-06T11:57:03Z)
A Brief Survey and Comparative Study of Recent Development of Pronoun Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。 1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文参考訳（メタデータ） (2020-09-27T01:40:01Z)
TopicBERT: A Transformer transfer learning based memory-graph approach for multimodal streaming social media topic detection [8.338441212378587]
急激な短いメッセージと、様々なトピックにまたがる大規模なデータスケールを持つソーシャルネットワークは、多くの研究者の関心を集めている。ビッグデータの5'Vとして知られるこれらのソーシャルネットワークの特性は、大規模なソーシャルネットワークデータセットやデータストリームに適用される多くのユニークで啓蒙的なアルゴリズムやテクニックを生み出している。
論文参考訳（メタデータ） (2020-08-16T10:39:50Z)
Interactive Natural Language-based Person Search [15.473033192858543]
人間の記述を効果的に取得するアルゴリズムの設計法について検討する。視覚的および言語的理解に使用されるモデルを用いて、興味ある人(POI)を原則的に検索するアルゴリズムを提案する。次に、ロボットがPOIの外観に関する追加情報を要求できる反復的質問応答(QA)戦略について検討する。
論文参考訳（メタデータ） (2020-02-19T20:42:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。