論文の概要: ReVision: A Dataset and Baseline VLM for Privacy-Preserving Task-Oriented Visual Instruction Rewriting
- arxiv url: http://arxiv.org/abs/2502.14780v1
- Date: Thu, 20 Feb 2025 18:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:22.801501
- Title: ReVision: A Dataset and Baseline VLM for Privacy-Preserving Task-Oriented Visual Instruction Rewriting
- Title(参考訳): ReVision: プライバシを保存するタスク指向ビジュアルインストラクション書き換えのためのデータセットとベースラインVLM
- Authors: Abhijit Mishra, Richard Noh, Hsiang Fu, Mingda Li, Minji Kim,
- Abstract要約: 本稿では,マルチモーダル命令をテキストのみのコマンドに変換する新しい手法であるVisual Instruction Rewritingについて検討する。
本稿では,14領域にまたがる39,000以上のサンプルのデータセットを提示し,画像キャプションデータセットに基づいて,コンパクトなVLMを開発する。
BLEU, METEOR, ROUGEなどのNLGメトリクスを用いて評価した実験結果から, モデルの量子化バージョンであっても, 効果的な命令書き換えが可能であることが示された。
- 参考スコア(独自算出の注目度): 5.657347835913079
- License:
- Abstract: Efficient and privacy-preserving multimodal interaction is essential as AR, VR, and modern smartphones with powerful cameras become primary interfaces for human-computer communication. Existing powerful large vision-language models (VLMs) enabling multimodal interaction often rely on cloud-based processing, raising significant concerns about (1) visual privacy by transmitting sensitive vision data to servers, and (2) their limited real-time, on-device usability. This paper explores Visual Instruction Rewriting, a novel approach that transforms multimodal instructions into text-only commands, allowing seamless integration of lightweight on-device instruction rewriter VLMs (250M parameters) with existing conversational AI systems, enhancing vision data privacy. To achieve this, we present a dataset of over 39,000 examples across 14 domains and develop a compact VLM, pretrained on image captioning datasets and fine-tuned for instruction rewriting. Experimental results, evaluated through NLG metrics such as BLEU, METEOR, and ROUGE, along with semantic parsing analysis, demonstrate that even a quantized version of the model (<500MB storage footprint) can achieve effective instruction rewriting, thus enabling privacy-focused, multimodal AI applications.
- Abstract(参考訳): 強力なカメラを備えたAR、VR、現代のスマートフォンが人間とコンピュータのコミュニケーションの主要なインターフェースとなるため、効率的でプライバシーに配慮したマルチモーダルインタラクションが不可欠である。
既存の大規模視覚言語モデル(VLM)により、マルチモーダルインタラクションはクラウドベースの処理に依存し、(1)機密性のある視覚データをサーバに送信することによる視覚的プライバシに関する重要な懸念を提起する。
本稿では、マルチモーダル命令をテキストのみのコマンドに変換する新しいアプローチであるVisual Instruction Rewritingについて検討し、軽量なオンデバイス命令リライタVLM(250Mパラメータ)を既存の会話型AIシステムとシームレスに統合し、視覚データのプライバシーを向上させる。
そこで本研究では,14領域にまたがる39,000以上のサンプルのデータセットを提示し,画像キャプションデータセットを事前訓練したコンパクトなVLMを開発し,命令書き換えのための微調整を行う。
BLEU、METEOR、ROUGEなどのNLGメトリクスを用いて評価された実験結果は、セマンティック解析とともに、モデルの量子化されたバージョン(500MBのストレージフットプリント)でさえ効果的な命令書き換えを実現し、プライバシを重視したマルチモーダルAIアプリケーションを可能にすることを実証している。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Applying Deep-Learning-Based Computer Vision to Wireless Communications:
Methodologies, Opportunities, and Challenges [100.45137961106069]
ディープラーニング(DL)はコンピュータビジョン(CV)分野で大きな成功を収めている。
本稿では,無線通信におけるDLベースのCVの適用について紹介する。
論文 参考訳(メタデータ) (2020-06-10T11:37:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。