論文の概要: A Large Vision-Language Model based Environment Perception System for Visually Impaired People
- arxiv url: http://arxiv.org/abs/2504.18027v1
- Date: Fri, 25 Apr 2025 02:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.616157
- Title: A Large Vision-Language Model based Environment Perception System for Visually Impaired People
- Title(参考訳): 視覚障害者のための大規模視覚言語モデルに基づく環境認識システム
- Authors: Zezhou Chen, Zhaoxiang Liu, Kai Wang, Kohou Wang, Shiguo Lian,
- Abstract要約: 本稿では,LVLMに基づく環境認識システムを提案する。
このシステムは視覚障害者が周囲の環境を効果的に知覚するのに役立つ。
- 参考スコア(独自算出の注目度): 3.787034006536037
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It is a challenging task for visually impaired people to perceive their surrounding environment due to the complexity of the natural scenes. Their personal and social activities are thus highly limited. This paper introduces a Large Vision-Language Model(LVLM) based environment perception system which helps them to better understand the surrounding environment, by capturing the current scene they face with a wearable device, and then letting them retrieve the analysis results through the device. The visually impaired people could acquire a global description of the scene by long pressing the screen to activate the LVLM output, retrieve the categories of the objects in the scene resulting from a segmentation model by tapping or swiping the screen, and get a detailed description of the objects they are interested in by double-tapping the screen. To help visually impaired people more accurately perceive the world, this paper proposes incorporating the segmentation result of the RGB image as external knowledge into the input of LVLM to reduce the LVLM's hallucination. Technical experiments on POPE, MME and LLaVA-QA90 show that the system could provide a more accurate description of the scene compared to Qwen-VL-Chat, exploratory experiments show that the system helps visually impaired people to perceive the surrounding environment effectively.
- Abstract(参考訳): 視覚障害者にとって、自然環境の複雑さから周囲の環境を知覚することは難しい課題である。
そのため、個人的・社会的活動は極めて限られている。
本稿では,LVLM(Large Vision-Language Model)を用いた環境認識システムを提案する。
視覚障害者は、画面を長押ししてLVLM出力を活性化し、画面をタップまたはスワイプすることで、シーン内のオブジェクトのカテゴリを検索し、画面をダブルタップすることで、関心のあるオブジェクトの詳細な説明を得る。
本稿では,視覚障害者が世界をより正確に知覚するのを助けるために,外的知識としてRGB画像のセグメンテーション結果をLVLMの入力に組み込むことにより,LVLMの幻覚を低減することを提案する。
POPE, MME, LLaVA-QA90の技術的実験により, このシステムはQwen-VL-Chatと比較してより正確なシーン記述を提供することができた。
関連論文リスト
- Influence of field of view in visual prostheses design: Analysis with a VR system [3.9998518782208783]
視覚補綴における空間分解能に対する視野の影響を評価する。
通常視認される被験者は24名に、通常の物体の発見と認識を依頼された。
その結果、視野が大きくなると精度と応答時間が低下することがわかった。
論文 参考訳(メタデータ) (2025-01-28T22:25:22Z) - AI-based Wearable Vision Assistance System for the Visually Impaired: Integrating Real-Time Object Recognition and Contextual Understanding Using Large Vision-Language Models [0.0]
本稿では,音のビープ機構を通じてユーザに対してリアルタイムフィードバックを提供するために,人工知能(AI)技術を用いたウェアラブル視覚支援システムを提案する。
大規模視覚言語モデル(LVLM)を用いたユーザ環境におけるオブジェクトの詳細な記述を提供する。
論文 参考訳(メタデータ) (2024-12-28T07:26:39Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - VisionGPT: LLM-Assisted Real-Time Anomaly Detection for Safe Visual Navigation [3.837186701755568]
本稿では,画像ナビゲーションのためのゼロショット異常検出におけるLarge Language Modelsの可能性について検討する。
提案フレームワークは,カメラキャプチャフレーム内の任意の障害を含む異常を識別し,異常を強調した簡潔な音声記述を生成する。
論文 参考訳(メタデータ) (2024-03-19T03:55:39Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - A Multi-Modal Foundation Model to Assist People with Blindness and Low Vision in Environmental Interaction [25.6637754177118]
視覚障害と低視力(pBLV)を持つ人は、総合的なシーン認識と正確な物体識別に関して、重大な課題に遭遇する。
pBLVの視覚知覚を高めるために,大規模な視覚言語モデルを活用する先駆的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-10-31T06:56:51Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z) - Semantic and structural image segmentation for prosthetic vision [2.048226951354646]
実環境における物体認識とシーン理解の能力は,義肢使用者に対して厳しく制限されている。
フォスフェン画像のための屋内環境のスキーマ表現を構築するための新しい手法を提案する。
提案手法は,関連情報を抽出,伝達するための様々な畳み込みニューラルネットワークを組み合わせる。
論文 参考訳(メタデータ) (2018-09-25T17:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。