論文の概要: VisPercep: A Vision-Language Approach to Enhance Visual Perception for
People with Blindness and Low Vision
- arxiv url: http://arxiv.org/abs/2310.20225v1
- Date: Tue, 31 Oct 2023 06:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 16:10:26.543754
- Title: VisPercep: A Vision-Language Approach to Enhance Visual Perception for
People with Blindness and Low Vision
- Title(参考訳): VisPercep: 盲目・低視者に対する視覚知覚を高める視覚言語アプローチ
- Authors: Yu Hao, Fan Yang, Hao Huang, Shuaihang Yuan, Sundeep Rangan, John-Ross
Rizzo, Yao Wang, Yi Fang
- Abstract要約: 視覚障害と低視力(pBLV)を持つ人は、総合的なシーン認識と正確な物体識別に関して、重大な課題に遭遇する。
pBLVの視覚知覚を高めるために,大規模な視覚言語モデルを活用する先駆的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 26.76911951565062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People with blindness and low vision (pBLV) encounter substantial challenges
when it comes to comprehensive scene recognition and precise object
identification in unfamiliar environments. Additionally, due to the vision
loss, pBLV have difficulty in accessing and identifying potential tripping
hazards on their own. In this paper, we present a pioneering approach that
leverages a large vision-language model to enhance visual perception for pBLV,
offering detailed and comprehensive descriptions of the surrounding
environments and providing warnings about the potential risks. Our method
begins by leveraging a large image tagging model (i.e., Recognize Anything
(RAM)) to identify all common objects present in the captured images. The
recognition results and user query are then integrated into a prompt, tailored
specifically for pBLV using prompt engineering. By combining the prompt and
input image, a large vision-language model (i.e., InstructBLIP) generates
detailed and comprehensive descriptions of the environment and identifies
potential risks in the environment by analyzing the environmental objects and
scenes, relevant to the prompt. We evaluate our approach through experiments
conducted on both indoor and outdoor datasets. Our results demonstrate that our
method is able to recognize objects accurately and provide insightful
descriptions and analysis of the environment for pBLV.
- Abstract(参考訳): 視覚障害者(pBLV)は、不慣れな環境での総合的なシーン認識と正確な物体識別に関して、重大な課題に遭遇する。
さらに、視力喪失のため、pBLVは自力でトリッピングの危険性にアクセスし識別することが困難である。
本稿では,pBLVの視覚知覚を高めるために,大規模視覚言語モデルを活用した先駆的アプローチを提案する。
本手法は,撮像された画像に存在するすべての共通物体を識別するために,大きな画像タグ付けモデル(ram)を活用することから始まる。
認識結果とユーザクエリはプロンプトに統合され、プロンプトエンジニアリングを使用してpBLV用に特別に調整される。
プロンプトと入力画像を組み合わせることで、大規模視覚言語モデル(インストラクションBLIP)が環境の詳細かつ包括的な記述を生成し、そのプロンプトに関連する環境オブジェクトやシーンを分析して、環境の潜在的なリスクを特定する。
本手法は,屋内および屋外のデータセットで行った実験を通して評価する。
本手法は,物体を正確に認識でき,pblvの環境に関する洞察に富んだ記述と分析が行えることを示す。
関連論文リスト
- What's in the Image? A Deep-Dive into the Vision of Vision Language Models [20.669971132114195]
VLM(Vision-Language Models)は、最近、複雑な視覚コンテンツを解釈する際、顕著な能力を示した。
本稿では,各層にまたがるアテンションモジュールに着目し,徹底的な経験分析を行う。
これらのモデルが視覚データをどのように処理するかについて、いくつかの重要な洞察を明らかにします。
論文 参考訳(メタデータ) (2024-11-26T14:59:06Z) - BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。
ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文 参考訳(メタデータ) (2024-10-28T12:40:27Z) - Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions [68.92637077909693]
本稿では,グラフィカルユーザインタフェース(GUI)環境におけるマルチモーダル大規模言語モデル(MLLM)エージェントの忠実さについて検討する。
ユーザとエージェントの両方が良性であり、環境は悪質ではないが、無関係なコンテンツを含む、一般的な設定が提案されている。
実験結果から、ジェネラリストエージェントや専門的なGUIエージェントなど、最も強力なモデルでさえ、気晴らしの影響を受けやすいことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-05T15:16:22Z) - Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。
本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。
データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T19:32:39Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Embodied Agents for Efficient Exploration and Smart Scene Description [47.82947878753809]
我々は、自律的なエージェントが見えない屋内環境を探索し、マッピングする必要がある視覚ナビゲーションの設定に取り組む。
本稿では,視覚ロボット探査と画像キャプションの最近の進歩を組み合わせたアプローチを提案し,評価する。
提案手法は,環境の意味的知識を最大化し,繰り返しを避けるスマートなシーン記述を生成する。
論文 参考訳(メタデータ) (2023-01-17T19:28:01Z) - Vision-Based Environmental Perception for Autonomous Driving [4.138893879750758]
視覚認知は自律運転において重要な役割を果たす。
近年のディープラーニング手法の開発は信頼性と処理速度が向上している。
単眼カメラは、物体の深度を推定するために、単一の視点からの画像データを使用する。
同時位置情報マッピング(SLAM)は、道路環境のモデルを構築することができる。
論文 参考訳(メタデータ) (2022-12-22T01:59:58Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。