論文の概要: An LLM-Empowered Low-Resolution Vision System for On-Device Human Behavior Understanding
- arxiv url: http://arxiv.org/abs/2505.01743v1
- Date: Sat, 03 May 2025 08:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.250149
- Title: An LLM-Empowered Low-Resolution Vision System for On-Device Human Behavior Understanding
- Title(参考訳): デバイス上での人間の行動理解のためのLDMを利用した低分解能ビジョンシステム
- Authors: Siyang Jiang, Bufang Yang, Lilin Xu, Mu Yuan, Yeerzhati Abudunuer, Kaiwei Liu, Liekang Zeng, Hongkai Chen, Zhenyu Yan, Xiaofan Jiang, Guoliang Xing,
- Abstract要約: 低解像度HBUをサポートするために設計された新しい省力化システムLlambdaを提案する。
中心となる考え方は、限られたラベル付きデータと大量のラベルなしデータを活用して、情報キャプションを生成するためにLLMをガイドすることである。
Llambdaは、Bert-Scoreの平均で40.03%まで、最先端のLVLMシステムを上回っている。
- 参考スコア(独自算出の注目度): 7.588486998437453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements in Large Vision Language Models (LVLMs) offer the potential to surpass conventional labeling by generating richer, more detailed descriptions of on-device human behavior understanding (HBU) in low-resolution vision systems, such as depth, thermal, and infrared. However, existing large vision language model (LVLM) approaches are unable to understand low-resolution data well as they are primarily designed for high-resolution data, such as RGB images. A quick fixing approach is to caption a large amount of low-resolution data, but it requires a significant amount of labor-intensive annotation efforts. In this paper, we propose a novel, labor-saving system, Llambda, designed to support low-resolution HBU. The core idea is to leverage limited labeled data and a large amount of unlabeled data to guide LLMs in generating informative captions, which can be combined with raw data to effectively fine-tune LVLM models for understanding low-resolution videos in HBU. First, we propose a Contrastive-Oriented Data Labeler, which can capture behavior-relevant information from long, low-resolution videos and generate high-quality pseudo labels for unlabeled data via contrastive learning. Second, we propose a Physical-Knowledge Guided Captioner, which utilizes spatial and temporal consistency checks to mitigate errors in pseudo labels. Therefore, it can improve LLMs' understanding of sequential data and then generate high-quality video captions. Finally, to ensure on-device deployability, we employ LoRA-based efficient fine-tuning to adapt LVLMs for low-resolution data. We evaluate Llambda using a region-scale real-world testbed and three distinct low-resolution datasets, and the experiments show that Llambda outperforms several state-of-the-art LVLM systems up to $40.03\%$ on average Bert-Score.
- Abstract(参考訳): LVLM(Large Vision Language Models)の急速な進歩は、深度、熱、赤外線といった低解像度の視覚システムにおいて、デバイス上での人間の行動理解(HBU)のよりリッチで詳細な記述を生成することによって、従来のラベリングを超える可能性をもたらす。
しかし、既存の大規模視覚言語モデル(LVLM)アプローチは、RGB画像のような高解像度データのために主に設計されているため、低解像度データを理解できない。
迅速な修正アプローチは、大量の低解像度データをキャプションするが、かなりの量の労働集約的なアノテーションを必要とする。
本稿では,低解像度HBUをサポートするために設計された新しい省力化システムLlambdaを提案する。
その中核となる考え方は、限定ラベル付きデータと大量の未ラベルデータを活用して、情報キャプションを生成するためにLLMをガイドし、生データと組み合わせることで、HBUの低解像度ビデオを理解するために、効果的に微調整のLVLMモデルを構築することである。
まず、長い低解像度ビデオから行動関連情報をキャプチャし、コントラスト学習によってラベルなしデータの高品質な擬似ラベルを生成するContrastive-Oriented Data Labelerを提案する。
次に,空間的・時間的整合性チェックを用いて擬似ラベルの誤りを緩和する物理知識ガイドキャプタを提案する。
そのため、LCMのシーケンシャルデータの理解を改善し、高品質な動画キャプションを生成することができる。
最後に、デバイス上でのデプロイ性を確保するため、低解像度データにLVLMを適用するためにLoRAベースの効率的な微調整を用いる。
実験では,Llambdaが複数の最先端LVLMシステムに対して平均ベルトスコアで最大40.03 %以上の性能を示すことを示した。
関連論文リスト
- LED: LLM Enhanced Open-Vocabulary Object Detection without Human Curated Data Generation [41.97593224447291]
本稿では,Large Language Models (LLMs) のデコーダ層を利用して,視覚的グラウンド化を強化する手法を提案する。
我々は,初期のLLM層からの中間隠れ状態が,接地作業に有益である強い空間-意味的相関を保っていることを実証した。
実験により,我々の適応戦略は複雑な自由形式のテキストクエリの性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2025-03-18T00:50:40Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - GLARE: Low Light Image Enhancement via Generative Latent Feature based Codebook Retrieval [80.96706764868898]
我々は、GLARE(Generative LAtent Feature based codebook Retrieval)を介して、新しい低照度画像強調(LLIE)ネットワークを提案する。
Invertible Latent Normalizing Flow (I-LNF) モジュールを開発し、LL特徴分布をNL潜在表現に整合させ、コードブック内の正しいコード検索を保証する。
さまざまなベンチマークデータセットと実世界のデータに対するGLAREの優れたパフォーマンスを確認する実験。
論文 参考訳(メタデータ) (2024-07-17T09:40:15Z) - Large Language Model with Graph Convolution for Recommendation [21.145230388035277]
テキスト情報は、時々品質の低いものになり、現実世界のアプリケーションにとってその効果を阻害する。
大きな言語モデルにカプセル化された知識と推論機能によって、LCMを活用することが、記述改善の有望な方法として現れます。
本稿では,ユーザ・イテムグラフの高次関係を捉えるために,LLMを抽出するグラフ対応畳み込みLLM法を提案する。
論文 参考訳(メタデータ) (2024-02-14T00:04:33Z) - Mitigating Object Hallucination in Large Vision-Language Models via
Classifier-Free Guidance [56.04768229686853]
LVLM(Large Vision-Language Models)は、画像中の既存の物体を幻覚させる傾向がある。
私たちはclassifieR-Free guIdaNcE (MARINE)を介してMitigating HallucinAtionと呼ばれるフレームワークを導入する。
MARINEはトレーニングフリーかつAPIフリーであり、生成プロセス中のオブジェクト幻覚を効果的かつ効率的に低減することができる。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving [44.06475712570428]
HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。