論文の概要: The Wallpaper is Ugly: Indoor Localization using Vision and Language
- arxiv url: http://arxiv.org/abs/2410.03900v1
- Date: Fri, 4 Oct 2024 20:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:31:01.616576
- Title: The Wallpaper is Ugly: Indoor Localization using Vision and Language
- Title(参考訳): 壁紙は愚かである:視覚と言語を用いた屋内のローカライゼーション
- Authors: Seth Pate, Lawson L. S. Wong,
- Abstract要約: テキスト記述と環境中の位置の画像との類似点を学習する。
このスコアは、言語クエリに最もよくマッチする場所を特定し、ユーザの位置を推定します。
1つのモデル、微調整のCLIPは、評価において人間より優れていた。
- 参考スコア(独自算出の注目度): 7.583451744555217
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We study the task of locating a user in a mapped indoor environment using natural language queries and images from the environment. Building on recent pretrained vision-language models, we learn a similarity score between text descriptions and images of locations in the environment. This score allows us to identify locations that best match the language query, estimating the user's location. Our approach is capable of localizing on environments, text, and images that were not seen during training. One model, finetuned CLIP, outperformed humans in our evaluation.
- Abstract(参考訳): 本研究では,自然言語クエリと環境からのイメージを用いて,マッピングした屋内環境におけるユーザの位置を探索する作業について検討する。
近年の事前学習された視覚言語モデルに基づいて,テキスト記述と環境中の位置の画像との類似点を学習する。
このスコアは、言語クエリに最もよくマッチする場所を特定し、ユーザの位置を推定します。
私たちのアプローチでは、トレーニング中に見られなかった環境、テキスト、イメージをローカライズすることが可能です。
1つのモデル、微調整のCLIPは、評価において人間より優れていた。
関連論文リスト
- Pixel Aligned Language Models [94.32841818609914]
我々は、位置を入力または出力として捉えることができる視覚言語モデルを開発した。
位置を入力として取ると、モデルが位置条件付きキャプションを実行し、指定対象または領域のキャプションを生成する。
本モデルでは,人間の注意を反映した画素単語対応キャプションを含むLocalized Narrative データセットを事前学習する。
論文 参考訳(メタデータ) (2023-12-14T18:57:58Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - What Is Near?: Room Locality Learning for Enhanced Robot
Vision-Language-Navigation in Indoor Living Environments [9.181624273492828]
視覚言語ナビゲーション(VLN)タスクのための共通センス学習モデルWINを提案する。
WINは、居住空間の事前の知識と現在の観測に基づいて、周辺地域の地図を予測する。
そこで本研究では,地域知識に基づく地域空間計画と屋内レイアウトの予測により,エージェントが適切な行動を選択することができることを示す。
論文 参考訳(メタデータ) (2023-09-10T14:15:01Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Training Semantic Descriptors for Image-Based Localization [0.0]
セグメンテーション画像からのみ抽出した記述子を用いて局所化を行うことができることを示す。
セマンティックディスクリプタのローカライズ性能は,最先端のRGB画像ベース手法のレベルまで向上する。
論文 参考訳(メタデータ) (2022-02-02T12:17:59Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。