論文の概要: Cache-of-Thought: Master-Apprentice Framework for Cost-Effective Vision Language Model Inference
- arxiv url: http://arxiv.org/abs/2502.20587v1
- Date: Thu, 27 Feb 2025 23:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:21.306891
- Title: Cache-of-Thought: Master-Apprentice Framework for Cost-Effective Vision Language Model Inference
- Title(参考訳): キャッシュ・オブ・ワット:コスト効果のある視覚言語モデル推論のためのマスタ・アプリケーション・フレームワーク
- Authors: Mingyuan Wu, Jize Jiang, Haozhen Zheng, Meitang Li, Zhaoheng Li, Beitong Tian, Bo Chen, Yongjoo Park, Minjia Zhang, Chengxiang Zhai, Klara Nahrstedt,
- Abstract要約: Cache of Thought (CoT)は、大小ビジョン言語モデル(VLM)間の協調推論のためのフレームワークである
CoTはキャッシュ内の大きなVLMから高品質なクエリ結果を管理し、それを新しいマルチモーダル検索とコンテキスト内学習によって選択し、小さなVLMの性能向上を支援する。
我々はCoTを広く評価し、様々な一般的なVQAベンチマークで評価し、CoTは同じ予算でVQA全体のパフォーマンスを7.7%向上させ、特に見習いのVLMの性能を36.6%向上させることを示した。
- 参考スコア(独自算出の注目度): 35.485422629760066
- License:
- Abstract: Vision Language Models (VLMs) have achieved remarkable success in a wide range of vision applications of increasing complexity and scales, yet choosing the right VLM model size involves a trade-off between response quality and cost. While smaller VLMs are cheaper to run, they typically produce responses only marginally better than random guessing on benchmarks such as MMMU. In this paper, we propose Cache of Thought (CoT), a master apprentice framework for collaborative inference between large and small VLMs. CoT manages high quality query results from large VLMs (master) in a cache, which are then selected via a novel multi modal retrieval and in-context learning to aid the performance of small VLMs (apprentice). We extensively evaluate CoT on various widely recognized and challenging general VQA benchmarks, and show that CoT increases overall VQA performance by up to 7.7% under the same budget, and specifically boosts the performance of apprentice VLMs by up to 36.6%.
- Abstract(参考訳): ビジョン言語モデル(VLM)は、複雑さとスケールを増大させる広範囲のビジョンアプリケーションにおいて大きな成功を収めていますが、適切なVLMモデルのサイズを選択するには、応答品質とコストのトレードオフが必要です。
より小型のVLMは実行しやすいが、MMMUのようなベンチマークでのランダムな推測よりも、応答は極端に良い。
本稿では,大規模VLMと小規模VLMの協調推論のための主観的見習いフレームワークであるCache of Thought (CoT)を提案する。
CoTはキャッシュ内の大きなVLM(master)から高品質なクエリ結果を管理し、それを新しいマルチモーダル検索とコンテキスト内学習によって選択し、小さなVLM(apprentice)の性能を向上させる。
我々はCoTを広く評価し、様々な一般的なVQAベンチマークで評価し、CoTは同じ予算でVQA全体のパフォーマンスを7.7%向上させ、特に見習いのVLMの性能を36.6%向上させることを示した。
関連論文リスト
- Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。
本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文 参考訳(メタデータ) (2024-12-04T20:35:07Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers [79.45405711339322]
生成型大規模マルチモーダルモデル(LMM)は、画像キャプションや視覚的質問応答など、様々な視覚言語(VL)タスクに優れる。
本稿では,LMMを識別タスクに効果的に活用する手法を提案する。
論文 参考訳(メタデータ) (2024-11-28T18:55:41Z) - Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - Investigating Prompting Techniques for Zero- and Few-Shot Visual Question Answering [6.798129852396113]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。