論文の概要: VisPercep: A Vision-Language Approach to Enhance Visual Perception for
People with Blindness and Low Vision
- arxiv url: http://arxiv.org/abs/2310.20225v1
- Date: Tue, 31 Oct 2023 06:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:10:26.543754
- Title: VisPercep: A Vision-Language Approach to Enhance Visual Perception for
People with Blindness and Low Vision
- Title(参考訳): VisPercep: 盲目・低視者に対する視覚知覚を高める視覚言語アプローチ
- Authors: Yu Hao, Fan Yang, Hao Huang, Shuaihang Yuan, Sundeep Rangan, John-Ross
Rizzo, Yao Wang, Yi Fang
- Abstract要約: 視覚障害と低視力(pBLV)を持つ人は、総合的なシーン認識と正確な物体識別に関して、重大な課題に遭遇する。
pBLVの視覚知覚を高めるために,大規模な視覚言語モデルを活用する先駆的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 26.76911951565062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People with blindness and low vision (pBLV) encounter substantial challenges
when it comes to comprehensive scene recognition and precise object
identification in unfamiliar environments. Additionally, due to the vision
loss, pBLV have difficulty in accessing and identifying potential tripping
hazards on their own. In this paper, we present a pioneering approach that
leverages a large vision-language model to enhance visual perception for pBLV,
offering detailed and comprehensive descriptions of the surrounding
environments and providing warnings about the potential risks. Our method
begins by leveraging a large image tagging model (i.e., Recognize Anything
(RAM)) to identify all common objects present in the captured images. The
recognition results and user query are then integrated into a prompt, tailored
specifically for pBLV using prompt engineering. By combining the prompt and
input image, a large vision-language model (i.e., InstructBLIP) generates
detailed and comprehensive descriptions of the environment and identifies
potential risks in the environment by analyzing the environmental objects and
scenes, relevant to the prompt. We evaluate our approach through experiments
conducted on both indoor and outdoor datasets. Our results demonstrate that our
method is able to recognize objects accurately and provide insightful
descriptions and analysis of the environment for pBLV.
- Abstract(参考訳): 視覚障害者(pBLV)は、不慣れな環境での総合的なシーン認識と正確な物体識別に関して、重大な課題に遭遇する。
さらに、視力喪失のため、pBLVは自力でトリッピングの危険性にアクセスし識別することが困難である。
本稿では,pBLVの視覚知覚を高めるために,大規模視覚言語モデルを活用した先駆的アプローチを提案する。
本手法は,撮像された画像に存在するすべての共通物体を識別するために,大きな画像タグ付けモデル(ram)を活用することから始まる。
認識結果とユーザクエリはプロンプトに統合され、プロンプトエンジニアリングを使用してpBLV用に特別に調整される。
プロンプトと入力画像を組み合わせることで、大規模視覚言語モデル(インストラクションBLIP)が環境の詳細かつ包括的な記述を生成し、そのプロンプトに関連する環境オブジェクトやシーンを分析して、環境の潜在的なリスクを特定する。
本手法は,屋内および屋外のデータセットで行った実験を通して評価する。
本手法は,物体を正確に認識でき,pblvの環境に関する洞察に富んだ記述と分析が行えることを示す。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。
本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。
データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T19:32:39Z) - Is it safe to cross? Interpretable Risk Assessment with GPT-4V for
Safety-Aware Street Crossing [9.250849537332169]
本稿では,大規模なマルチモーダルモデル(LMM)を活用し,複雑な交差点シーンを解釈する革新的な手法を提案する。
安全スコアとシーン記述を自然言語で生成することにより,視覚障害者の安全意思決定を支援する。
論文 参考訳(メタデータ) (2024-02-09T21:37:13Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - Vision-Based Environmental Perception for Autonomous Driving [4.138893879750758]
視覚認知は自律運転において重要な役割を果たす。
近年のディープラーニング手法の開発は信頼性と処理速度が向上している。
単眼カメラは、物体の深度を推定するために、単一の視点からの画像データを使用する。
同時位置情報マッピング(SLAM)は、道路環境のモデルを構築することができる。
論文 参考訳(メタデータ) (2022-12-22T01:59:58Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。