論文の概要: VIALM: A Survey and Benchmark of Visually Impaired Assistance with Large
Models
- arxiv url: http://arxiv.org/abs/2402.01735v2
- Date: Sat, 10 Feb 2024 14:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:34:17.254303
- Title: VIALM: A Survey and Benchmark of Visually Impaired Assistance with Large
Models
- Title(参考訳): VIALM:大規模モデルによる視覚障害者支援に関する調査とベンチマーク
- Authors: Yi Zhao, Yilin Zhang, Rong Xiang, Jing Li, Hillming Li
- Abstract要約: この研究は、視覚障害者支援(VIA)における選択されたLMの能力について、最近のLM研究およびベンチマーク実験をレビューした調査から成っている。
その結果、LMはVIAの恩恵を受けることができるが、その出力は環境に十分整えられず、きめ細かいガイダンスが欠如していることが示唆された。
- 参考スコア(独自算出の注目度): 8.043137652284539
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually Impaired Assistance (VIA) aims to automatically help the visually
impaired (VI) handle daily activities. The advancement of VIA primarily depends
on developments in Computer Vision (CV) and Natural Language Processing (NLP),
both of which exhibit cutting-edge paradigms with large models (LMs).
Furthermore, LMs have shown exceptional multimodal abilities to tackle
challenging physically-grounded tasks such as embodied robots. To investigate
the potential and limitations of state-of-the-art (SOTA) LMs' capabilities in
VIA applications, we present an extensive study for the task of VIA with LMs
(VIALM). In this task, given an image illustrating the physical environments
and a linguistic request from a VI user, VIALM aims to output step-by-step
guidance to assist the VI user in fulfilling the request grounded in the
environment. The study consists of a survey reviewing recent LM research and
benchmark experiments examining selected LMs' capabilities in VIA. The results
indicate that while LMs can potentially benefit VIA, their output cannot be
well environment-grounded (i.e., 25.7% GPT-4's responses) and lacks
fine-grained guidance (i.e., 32.1% GPT-4's responses).
- Abstract(参考訳): 視覚障害者支援(VIA)は、視覚障害者(VI)が日常的な活動に自動的に対応できるようにする。
VIAの進歩は主にコンピュータビジョン(CV)と自然言語処理(NLP)の発展に依存しており、どちらも大きなモデル(LM)を持つ最先端のパラダイムを示している。
さらに、lmsは体格ロボットのような身体的な課題に取り組むための特別なマルチモーダル能力を示している。
本研究では,VIAアプリケーションにおけるSOTA (State-of-the-art) LMsの機能の可能性と限界を明らかにするために,VIA with LMs (VIALM) のタスクについて広範な研究を行う。
このタスクでは、物理的環境とviユーザからの言語要求を図解した画像と、viユーザへのステップ・バイ・ステップのガイダンスの出力を目標とし、環境に接する要求を満たすviユーザを支援する。
この研究は、最近のLM研究のレビューと、VIAにおける選択されたLMの能力を調べるベンチマーク実験から成っている。
結果は、LMはVIAの恩恵を受ける可能性があるが、その出力は環境に順応する(25.7% GPT-4の応答)ことができず、きめ細かいガイダンス(32.1% GPT-4の応答)を欠いていることを示している。
関連論文リスト
- ViSTa Dataset: Do vision-language models understand sequential tasks? [6.039062076849557]
強化学習における報酬モデルとして視覚言語モデル(VLM)を使用することは、コスト削減と安全性の向上を約束する。
逐次タスクの視覚的理解を評価するためのデータセットであるViSTaを紹介する。
ViSTaは4000本以上のビデオと、仮想ホーム、Minecraft、および現実世界の環境におけるステップバイステップの説明で構成されている。
論文 参考訳(メタデータ) (2024-11-20T11:19:22Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - @Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。
われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。
さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文 参考訳(メタデータ) (2024-09-21T18:30:17Z) - VIAssist: Adapting Multi-modal Large Language Models for Users with Visual Impairments [0.5572412691057121]
全世界で220億人が視覚障害に罹患している。
MLLMの視覚的理解と推論の優れた能力を持つVI人を助けることが望ましい。
本稿では,視覚的な質問応答を提供するために,MLLMをVI個人に活用する方法について検討する。
論文 参考訳(メタデータ) (2024-04-03T06:53:27Z) - AVIBench: Towards Evaluating the Robustness of Large Vision-Language Model on Adversarial Visual-Instructions [52.9787902653558]
LVLM(Large Vision-Language Models)は、視覚的インストラクションに対するユーザからの対応において、大きな進歩を見せている。
LVLMのこのような脅威に対する堅牢性の重要性にもかかわらず、この分野の現在の研究は限られている。
AVIBenchは、様々な対向的な視覚的命令に直面した場合のLVLMの堅牢性を分析するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T12:51:07Z) - GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing [74.68232970965595]
MLLM(Multimodal large language model)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理し、統合するように設計されている。
本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMLLMの適用性を評価する。
論文 参考訳(メタデータ) (2024-03-09T13:56:25Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - Large Language Models Meet Computer Vision: A Brief Survey [0.0]
大規模言語モデル(LLM)とコンピュータビジョン(CV)は研究の重要な領域として現れ、人工知能(AI)分野において大きな進歩を遂げている。
この調査論文は、視覚変換器(ViT)とLLMに革命をもたらす可能性を強調しながら、トランスフォーマーの領域における最新の進歩を論じている。
調査は、この分野のオープンな方向性を強調し、将来の研究開発の場を示唆することで締めくくられる。
論文 参考訳(メタデータ) (2023-11-28T10:39:19Z) - Trustworthy Large Models in Vision: A Survey [8.566163225282724]
大規模モデル(LM)は、自然言語処理(NLP)やコンピュータビジョン(CV)など、ディープラーニングの様々な分野に革命をもたらした。
LMは、強力なパフォーマンスだが信頼できない振る舞いのために、学界や業界によってますます批判され、批判されている。
本調査では,1)人間の誤用,2)脆弱性,3)固有の問題,4)解釈可能性など,LMのビジョンにおける信頼性の高い使用を阻害する4つの懸念点を要約する。
本調査は,この分野に対する読者の理解を深め,人的期待とLMの整合性を高めるとともに,人類社会の災害というよりも,信頼性の高いLMを福祉として機能させることを期待する。
論文 参考訳(メタデータ) (2023-11-16T08:49:46Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。