論文の概要: Towards Blind and Low-Vision Accessibility of Lightweight VLMs and Custom LLM-Evals
- arxiv url: http://arxiv.org/abs/2511.10615v1
- Date: Fri, 14 Nov 2025 02:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.956738
- Title: Towards Blind and Low-Vision Accessibility of Lightweight VLMs and Custom LLM-Evals
- Title(参考訳): 軽量VLMとカスタムLDM-Evalのブラインドと低視認性を目指して
- Authors: Shruti Singh Baghel, Yash Pratap Singh Rathore, Sushovan Jena, Anurag Pradhan, Amit Shukla, Arnav Bhavsar, Pawan Goyal,
- Abstract要約: VLM(Large Vision-Language Models)は、ビデオ記述の理解と生成に優れるが、その高メモリ、計算、デプロイの要求は実用的な使用を妨げている。
AVCaps(屋外)とCharades(屋内)の2つの多様なデータセットで500Mと2.2Bパラメータを持つSmolVLM2変異体を評価する。
本稿では,BLVアクセシビリティ評価に特化して設計された2つの新しい評価フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 3.5208214617114337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (VLMs) excel at understanding and generating video descriptions but their high memory, computation, and deployment demands hinder practical use particularly for blind and low-vision (BLV) users who depend on detailed, context-aware descriptions. To study the effect of model size on accessibility-focused description quality, we evaluate SmolVLM2 variants with 500M and 2.2B parameters across two diverse datasets: AVCaps (outdoor), and Charades (indoor). In this work, we introduce two novel evaluation frameworks specifically designed for BLV accessibility assessment: the Multi-Context BLV Framework evaluating spatial orientation, social interaction, action events, and ambience contexts; and the Navigational Assistance Framework focusing on mobility-critical information. Additionally, we conduct a systematic evaluation of four different prompt design strategies and deploy both models on a smartphone, evaluating FP32 and INT8 precision variants to assess real-world performance constraints on resource-limited mobile devices.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、ビデオ記述の理解と生成に長けているが、その高メモリ、計算、展開要求は、特に詳細なコンテキスト対応の記述に依存する視覚的・低ビジョン(BLV)ユーザにとって実用的利用を妨げる。
モデルサイズがアクセシビリティに着目した記述品質に与える影響を検討するため,500Mと2.2Bのパラメータを持つSmolVLM2変異体を,AVCaps(屋外)とCharades(屋内)の2つの多様なデータセットで評価した。
本研究では,BLVアクセシビリティ評価に特化して設計された2つの新しい評価フレームワークを紹介する。
さらに、4つの異なるプロンプト設計戦略を体系的に評価し、FP32とINT8の精度のバリエーションを評価し、リソース制限されたモバイルデバイス上での実際の性能制約を評価する。
関連論文リスト
- UI2V-Bench: An Understanding-based Image-to-video Generation Benchmark [35.157850129371525]
I2V(Image-to-Video)の生成は、ビデオ合成の分野において重要な焦点となっている。
既存の評価ベンチマークは主にビデオの品質や時間的一貫性といった側面に焦点を当てている。
We propose UI2V-Bench, a novel benchmark for evaluation I2V model with focus on semantic understanding and reasoning。
論文 参考訳(メタデータ) (2025-09-29T08:14:26Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - AlignMMBench: Evaluating Chinese Multimodal Alignment in Large Vision-Language Models [34.843603169616486]
大規模視覚言語モデル(VLM)のアライメント能力を評価するベンチマークであるAlignMMBenchを紹介する。
このベンチマークは、現実世界のシナリオとインターネットソースから慎重にキュレートされ、シングルターンとマルチターンの対話シナリオを含む。
また,GPT-4の評価能力を超えるルール校正評価器であるCristiqueVLMを開発した。
論文 参考訳(メタデータ) (2024-06-13T16:30:14Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。