論文の概要: ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People
- arxiv url: http://arxiv.org/abs/2412.03118v2
- Date: Wed, 30 Apr 2025 17:42:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.158288
- Title: ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People
- Title(参考訳): ObjectFinder: 盲人による対話型オブジェクト検索のためのオープン語彙支援システム
- Authors: Ruiping Liu, Jiaming Zhang, Angela Schön, Karin Müller, Junwei Zheng, Kailun Yang, Anhong Guo, Kathrin Gerling, Rainer Stiefelhagen,
- Abstract要約: 視覚障害者による対話型オブジェクト検索のためのオープン語彙ウェアラブルシステムであるObjectFinderを提案する。
ObjectFinderでは、フレキシブルなワードでターゲットオブジェクトをクエリできる。
距離や方向を含む、エゴセントリックなローカライゼーション情報をリアルタイムで提供する。
- 参考スコア(独自算出の注目度): 42.050924675417654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Searching for objects in unfamiliar scenarios is a challenging task for blind people. It involves specifying the target object, detecting it, and then gathering detailed information according to the user's intent. However, existing description- and detection-based assistive technologies do not sufficiently support the multifaceted nature of interactive object search tasks. We present ObjectFinder, an open-vocabulary wearable assistive system for interactive object search by blind people. ObjectFinder allows users to query target objects using flexible wording. Once the target object is detected, it provides egocentric localization information in real-time, including distance and direction. Users can then initiate different branches to gather detailed information based on their intent towards the target object, such as navigating to it or perceiving its surroundings. ObjectFinder is powered by a seamless combination of open-vocabulary models, namely an open-vocabulary object detector and a multimodal large language model. The ObjectFinder design concept and its development were carried out in collaboration with a blind co-designer. To evaluate ObjectFinder, we conducted an exploratory user study with eight blind participants. We compared ObjectFinder to BeMyAI and Google Lookout, popular description- and detection-based assistive applications. Our findings indicate that most participants felt more independent with ObjectFinder and preferred it for object search, as it enhanced scene context gathering and navigation, and allowed for active target identification. Finally, we discuss the implications for future assistive systems to support interactive object search.
- Abstract(参考訳): 馴染みのないシナリオでオブジェクトを探すことは、盲目の人々にとって難しいタスクです。
対象のオブジェクトを指定し、検出し、ユーザの意図に応じて詳細な情報を収集する。
しかし、既存の記述および検出に基づく補助技術は、対話型オブジェクト探索タスクの多面的特性を十分にサポートしていない。
視覚障害者による対話型オブジェクト検索のためのオープン語彙ウェアラブル支援システムであるObjectFinderを提案する。
ObjectFinderでは、フレキシブルなワードでターゲットオブジェクトをクエリできる。
対象オブジェクトが検出されると、距離や方向を含むエゴセントリックなローカライゼーション情報をリアルタイムで提供する。
ユーザーは異なるブランチを起動して、ターゲットオブジェクトに対する意図に基づいて詳細な情報を集めることができる。
ObjectFinderはオープン語彙モデルのシームレスな組み合わせ、すなわちオープン語彙オブジェクト検出器とマルチモーダルな大規模言語モデルによって実現されている。
ObjectFinderの設計コンセプトとその開発は、盲目の共同設計者と共同で行われた。
ObjectFinderを評価するために,視覚障害者8名を対象に探索的ユーザスタディを行った。
我々はObjectFinderとBeMyAIとGoogle Lookoutを比較した。
その結果、ほとんどの参加者はObjectFinderと独立感があり、シーンコンテキストの収集やナビゲーションが強化され、アクティブなターゲット識別が可能になったため、オブジェクト検索に好まれていたことが示唆された。
最後に,対話型オブジェクト検索を支援する将来の支援システムについて考察する。
関連論文リスト
- Interacted Object Grounding in Spatio-Temporal Human-Object Interactions [70.8859442754261]
我々は、新しいオープンワールドベンチマーク: Grounding Interacted Objects (GIO)を導入する。
オブジェクトの接地作業は視覚システムが相互作用するオブジェクトを発見することを期待するものである。
多様なビデオから対話オブジェクトを検出するための4D質問応答フレームワーク(4D-QA)を提案する。
論文 参考訳(メタデータ) (2024-12-27T09:08:46Z) - V3Det Challenge 2024 on Vast Vocabulary and Open Vocabulary Object Detection: Methods and Results [142.5704093410454]
V3Det Challenge 2024は、オブジェクト検出研究の境界を推し進めることを目的としている。
Vast Vocabulary Object DetectionとOpen Vocabulary Object Detectionの2つのトラックで構成されている。
我々は,広い語彙とオープン語彙のオブジェクト検出において,今後の研究の方向性を刺激することを目指している。
論文 参考訳(メタデータ) (2024-06-17T16:58:51Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - CoTDet: Affordance Knowledge Prompting for Task Driven Object Detection [42.2847114428716]
タスク駆動オブジェクト検出は、イメージ内のタスクを提供するのに適したオブジェクトインスタンスを検出することを目的としている。
その課題は、従来のオブジェクト検出のためのクローズドなオブジェクト語彙に制限されるほど多様すぎるタスクのために利用できるオブジェクトカテゴリにある。
本稿では,オブジェクトカテゴリではなく,異なるオブジェクトが同じタスクを達成できる共通属性について検討する。
論文 参考訳(メタデータ) (2023-09-03T06:18:39Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - DetGPT: Detect What You Need via Reasoning [33.00345609506097]
我々は、推論に基づくオブジェクト検出と呼ばれる、オブジェクト検出のための新しいパラダイムを導入する。
特定のオブジェクト名に依存する従来のオブジェクト検出方法とは異なり,本手法では自然言語命令を用いてシステムと対話することが可能である。
提案手法はDetGPTと呼ばれ,最先端のマルチモーダルモデルとオープンボキャブラリオブジェクト検出器を利用する。
論文 参考訳(メタデータ) (2023-05-23T15:37:28Z) - Discovering a Variety of Objects in Spatio-Temporal Human-Object
Interactions [45.92485321148352]
毎日のHOIでは、人間が掃除中に何十もの家庭用品を持って触れるなど、さまざまな物と対話することが多い。
51のインタラクションと1000以上のオブジェクトを含むDIO(Discoveringed Objects)。
ST-HOI学習タスクは、視覚システムが人間のアクターを追跡し、相互作用を検出し、同時に物体を発見することを期待するものである。
論文 参考訳(メタデータ) (2022-11-14T16:33:54Z) - Towards Open-Set Object Detection and Discovery [38.81806249664884]
我々は新しいタスク、すなわちOpen-Set Object Detection and Discovery(OSODD)を提案する。
本稿では、まずオープンセットオブジェクト検出器を用いて、未知のオブジェクトと未知のオブジェクトの両方を予測する2段階の手法を提案する。
そこで,予測対象を教師なしで表現し,未知対象の集合から新たなカテゴリを発見する。
論文 参考訳(メタデータ) (2022-04-12T08:07:01Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - Detecting Human-Object Interaction via Fabricated Compositional Learning [106.37536031160282]
ヒューマンオブジェクトインタラクション(HOI)検出は、高レベルのシーン理解のための基本的なタスクです。
人間は珍しいまたは見えないHOIのサンプルを認識する非常に強力な構成知覚能力があります。
オープン長尾HOI検出の課題を解決するために,FCL(Fabricated Compositional Learning)を提案する。
論文 参考訳(メタデータ) (2021-03-15T08:52:56Z) - GO-Finder: A Registration-Free Wearable System for Assisting Users in
Finding Lost Objects via Hand-Held Object Discovery [23.33413589457104]
GO-Finderは、登録不要のウェアラブルカメラベースのシステムで、オブジェクトの発見を支援する。
Go-Finderは手持ちのオブジェクトを自動的に検出してグループ化し、オブジェクトのビジュアルタイムラインを形成する。
論文 参考訳(メタデータ) (2021-01-18T20:04:56Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Semantic Linking Maps for Active Visual Object Search [14.573513188682183]
我々はランドマークと対象物の間の共通空間関係に関する背景知識を利用する。
本稿では,セマンティックリンクマップ(SLiM)モデルの導入により,アクティブなビジュアルオブジェクト探索戦略を提案する。
SLiMに基づいて、ターゲットオブジェクトを探索する次の最適なポーズを選択するハイブリッド検索戦略について述べる。
論文 参考訳(メタデータ) (2020-06-18T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。