論文の概要: WalkVLM:Aid Visually Impaired People Walking by Vision Language Model
- arxiv url: http://arxiv.org/abs/2412.20903v2
- Date: Sat, 04 Jan 2025 13:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:21.891759
- Title: WalkVLM:Aid Visually Impaired People Walking by Vision Language Model
- Title(参考訳): WalkVLM:視覚言語モデルによる視覚障害者の歩行支援
- Authors: Zhiqiang Yuan, Ting Zhang, Jiapei Zhang, Jie Zhou, Jinchao Zhang,
- Abstract要約: 世界中で約2億人が視覚障害に悩まされている。
近年,視覚言語モデル (VLM) の進歩に伴い,この領域を改善するためにVLMを用いた研究が盛んに行われている。
ブラインドウォーキングタスクでは、リアルタイムのストリーミングビデオ解析を行い、簡潔で情報に富むリマインダーを生成する必要がある。
- 参考スコア(独自算出の注目度): 30.331577730323453
- License:
- Abstract: Approximately 200 million individuals around the world suffer from varying degrees of visual impairment, making it crucial to leverage AI technology to offer walking assistance for these people. With the recent progress of vision-language models (VLMs), employing VLMs to improve this field has emerged as a popular research topic. However, most existing methods are studied on self-built question-answering datasets, lacking a unified training and testing benchmark for walk guidance. Moreover, in blind walking task, it is necessary to perform real-time streaming video parsing and generate concise yet informative reminders, which poses a great challenge for VLMs that suffer from redundant responses and low inference efficiency. In this paper, we firstly release a diverse, extensive, and unbiased walking awareness dataset, containing 12k video-manual annotation pairs from Europe and Asia to provide a fair training and testing benchmark for blind walking task. Furthermore, a WalkVLM model is proposed, which employs chain of thought for hierarchical planning to generate concise but informative reminders and utilizes temporal-aware adaptive prediction to reduce the temporal redundancy of reminders. Finally, we have established a solid benchmark for blind walking task and verified the advantages of WalkVLM in stream video processing for this task compared to other VLMs. Our dataset and code will be released at anonymous link https://walkvlm2024.github.io.
- Abstract(参考訳): 世界中の約2億人の人がさまざまな視覚障害に悩まされており、AI技術を活用してこれらの人々に歩行支援を提供することが不可欠だ。
近年,視覚言語モデル (VLM) の進歩に伴い,この領域を改善するためにVLMを用いた研究が盛んに行われている。
しかし、既存のほとんどの手法は、自己構築された質問応答データセットで研究されており、歩行指導のための統一的なトレーニングとテストのベンチマークが欠如している。
さらに,視覚障害者の歩行作業では,リアルタイムのストリーミング映像解析と簡潔かつ情報に富むリマインダー生成が不可欠であり,冗長な応答や推論効率の低下に悩むVLMにとって大きな課題となる。
本稿ではまず,ヨーロッパとアジアのビデオマニュアルアノテーションペア1万組を含む,多種多様で広範かつ偏りのない歩行意識データセットを公開し,視覚障害者のための公正なトレーニングとテストのベンチマークを提供する。
さらに、簡潔だが情報に富むリマインダーを生成するための階層的計画に思考の連鎖を用いるウォークVLMモデルを提案し、時間的適応予測を用いてリマインダーの時間的冗長性を低減する。
最後に、視覚障害者の歩行課題に対する確固たるベンチマークを確立し、他のVLMと比較してストリームビデオ処理におけるWalkVLMの利点を検証した。
私たちのデータセットとコードは、匿名のリンク https://walkvlm2024.github.io.comでリリースされます。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。