論文の概要: WalkVLM:Aid Visually Impaired People Walking by Vision Language Model
- arxiv url: http://arxiv.org/abs/2412.20903v4
- Date: Tue, 04 Mar 2025 15:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:11:25.690486
- Title: WalkVLM:Aid Visually Impaired People Walking by Vision Language Model
- Title(参考訳): WalkVLM:視覚言語モデルによる視覚障害者の歩行支援
- Authors: Zhiqiang Yuan, Ting Zhang, Ying Deng, Jiapei Zhang, Yeshuang Zhu, Zexi Jia, Jie Zhou, Jinchao Zhang,
- Abstract要約: 12,000対のビデオアノテーションペアからなる歩行支援専用の最初の大規模データセットを紹介した。
簡潔だが情報に富むリマインダーを生成する階層的計画に一連の思考を用いるWalkVLMモデルを提案する。
我々はブラインドウォーキングタスクの確固たるベンチマークを確立し、ストリームビデオ処理におけるWalkVLMの利点を検証した。
- 参考スコア(独自算出の注目度): 29.340362062804967
- License:
- Abstract: Approximately 200 million individuals around the world suffer from varying degrees of visual impairment, making it crucial to leverage AI technology to offer walking assistance for these people. With the recent progress of vision-language models (VLMs), applying VLMs to offer walking guidance has become popular. However, the existing methods of walking guidance are mainly based on self-curated question-answering datasets that are not publicly accessible, without a standardized benchmark for training or evaluation. Moreover, walking assistance often requires real-time streaming video analysis and the generation of concise yet informative reminders, making VLMs struggle due to excessive responses and low efficiency in inferences. In this paper, we introduce the first large-scale dataset dedicated to walking assistance, comprising 12,000 video-annotation pairs, to provide a unified benchmark for training and evaluating systems to help visually-impaired individuals walk. Furthermore, a WalkVLM model is proposed, which employs chain of thought for hierarchical planning to generate concise but informative reminders and utilizes temporal-aware adaptive prediction to reduce the temporal redundancy of reminders. Finally, we have established a solid benchmark for blind walking task and verified the advantages of WalkVLM in stream video processing for this task compared to other VLMs. Our dataset and code are available at https://walkvlm2024.github.io.
- Abstract(参考訳): 世界中の約2億人の人がさまざまな視覚障害に悩まされており、AI技術を活用してこれらの人々に歩行支援を提供することが不可欠だ。
近年,視覚言語モデル(VLM)の進歩に伴い,歩行指導にVLMを適用することが普及している。
しかし、既存の歩行指導法は主に、訓練や評価の標準ベンチマークを使わずに、一般にはアクセスできない自己計算された質問応答データセットに基づいている。
さらに、歩行支援にはリアルタイムのストリーミングビデオ解析と簡潔なリマインダーの生成が必要であることが多く、VLMは過度な応答と推論の効率の低下のために苦労している。
本稿では,12,000対の動画アノテーションペアからなる歩行支援専用の大規模データセットについて紹介し,視覚障害者の歩行を支援するためのトレーニングとシステム評価のための統一ベンチマークを提供する。
さらに、簡潔だが情報に富むリマインダーを生成するための階層的計画に思考の連鎖を用いるウォークVLMモデルを提案し、時間的適応予測を用いてリマインダーの時間的冗長性を低減する。
最後に、視覚障害者の歩行課題に対する確固たるベンチマークを確立し、他のVLMと比較してストリームビデオ処理におけるWalkVLMの利点を検証した。
データセットとコードはhttps://walkvlm2024.github.io.comで公開されている。
関連論文リスト
- FiVL: A Framework for Improved Vision-Language Alignment [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
これらのデータセットは、LVLMのイメージコンテンツを実体的証拠として使用する能力のトレーニングと評価の両方に使用することができる。
提案するデータセットの有用性を実証するために,検証手法と説明可能性の応用とともに,ベースラインを向上する革新的なトレーニングタスクを導入する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。