論文の概要: GLIMPSE : Real-Time Text Recognition and Contextual Understanding for VQA in Wearables
- arxiv url: http://arxiv.org/abs/2602.13479v1
- Date: Fri, 13 Feb 2026 21:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.047497
- Title: GLIMPSE : Real-Time Text Recognition and Contextual Understanding for VQA in Wearables
- Title(参考訳): GLIMPSE : ウェアラブルにおけるVQAのリアルタイムテキスト認識と文脈理解
- Authors: Akhil Ramachandran, Ankit Arun, Ashish Shenoy, Abhay Harpale, Srihari Jayakumar, Debojeet Chatterjee, Mohsen Moslehpour, Pierce Chuang, Yichao Lu, Vikas Bhardwaj, Peyman Heidari,
- Abstract要約: テキスト認識には高解像度のビデオが必要だが、高品質のビデオストリーミングはバッテリーを減らし、熱収縮を引き起こす。
我々は、この非対称性を、視覚的コンテキストのために低解像度映像をストリーミングしながら、選択的な高解像度OCRオンデバイスを実行するハイブリッドアーキテクチャで活用する。
5つのタスクカテゴリにわたるテキストベースのVQAサンプルのベンチマークにおいて、本システムはフル解像度ストリーミングの消費電力の0.49倍の精度で72%の精度を達成する。
- 参考スコア(独自算出の注目度): 3.5173691586877336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Language Models (Video LLMs) have shown remarkable progress in understanding and reasoning about visual content, particularly in tasks involving text recognition and text-based visual question answering (Text VQA). However, deploying Text VQA on wearable devices faces a fundamental tension: text recognition requires high-resolution video, but streaming high-quality video drains battery and causes thermal throttling. Moreover, existing models struggle to maintain coherent temporal context when processing text across multiple frames in real-time streams. We observe that text recognition and visual reasoning have asymmetric resolution requirements - OCR needs fine detail while scene understanding tolerates coarse features. We exploit this asymmetry with a hybrid architecture that performs selective high-resolution OCR on-device while streaming low-resolution video for visual context. On a benchmark of text-based VQA samples across five task categories, our system achieves 72% accuracy at 0.49x the power consumption of full-resolution streaming, enabling sustained VQA sessions on resource-constrained wearables without sacrificing text understanding quality.
- Abstract(参考訳): ビデオLLM(Video Large Language Models)は、特にテキスト認識やテキストベースの視覚的質問応答(Text VQA)に関わるタスクにおいて、視覚的内容の理解と推論において顕著な進歩を見せている。
テキスト認識には高解像度のビデオが必要だが、高品質のビデオストリーミングはバッテリーを減らし、熱収縮を引き起こす。
さらに、既存のモデルは、リアルタイムストリームで複数のフレームにまたがるテキストを処理する際に、コヒーレントな時間的コンテキストを維持するのに苦労している。
我々は、テキスト認識と視覚的推論が非対称な解決要件を持つのを観察し、OCRは細部細部を必要とし、シーン理解は粗い特徴を許容する。
我々は、この非対称性を、視覚的コンテキストのために低解像度映像をストリーミングしながら、選択的に高解像度のOCRをオンデバイスで実行するハイブリッドアーキテクチャで活用する。
5つのタスクカテゴリにわたるテキストベースのVQAサンプルのベンチマークにおいて、本システムはフルレゾリューションストリーミングの消費電力の0.49倍の精度で72%の精度を実現し、テキスト理解品質を犠牲にすることなく、リソース制約されたウェアラブル上での持続的なVQAセッションを可能にする。
関連論文リスト
- Video-QTR: Query-Driven Temporal Reasoning Framework for Lightweight Video Understanding [37.682165829414494]
Video-QTRは、クエリ誘導推論プロセスとしてビデオ理解を再定義する軽量フレームワークである。
ビデオQTRは,入力フレームの消費を最大73%削減し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-10T06:28:00Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - Track the Answer: Extending TextVQA from Image to Video with Spatio-Temporal Clues [8.797350517975477]
ビデオテキストベースの視覚的質問応答 (Video TextVQA) は、あるビデオにおいて、共同でテキストによる推論と視覚情報によって質問に答えることを目的とした実践的なタスクである。
画像からビデオへ生成するTextVQAフレームワークをより良く拡張するTEA(stands for textbfTrack thbfE bftextA languageser'')手法を提案する。
論文 参考訳(メタデータ) (2024-12-17T03:06:12Z) - Temporal Reasoning Transfer from Text to Video [51.68487044397409]
ビデオ大言語モデル(ビデオLLM)は、時間的変化の追跡と時間的関係の推論に苦労する。
テキストからビデオ領域への時間的推論能力を伝達するために、テキスト時間的推論転送(T3)を導入する。
LongVA-7Bモデルは、包括的なビデオベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-10-08T16:10:29Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - Capturing Co-existing Distortions in User-Generated Content for
No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。
VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。
品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文 参考訳(メタデータ) (2023-07-31T16:29:29Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。