論文の概要: Visual Program Distillation: Distilling Tools and Programmatic Reasoning
into Vision-Language Models
- arxiv url: http://arxiv.org/abs/2312.03052v1
- Date: Tue, 5 Dec 2023 18:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:02:10.362470
- Title: Visual Program Distillation: Distilling Tools and Programmatic Reasoning
into Vision-Language Models
- Title(参考訳): ビジュアルプログラム蒸留 : 視覚言語モデルへの蒸留ツールとプログラム推論
- Authors: Yushi Hu, Otilia Stretcu, Chun-Ta Lu, Krishnamurthy Viswanathan, Kenji
Hata, Enming Luo, Ranjay Krishna, Ariel Fuxman
- Abstract要約: 視覚言語モデル(VLM)を生成する命令チューニングフレームワークである視覚プログラム蒸留(VPD)を提案する。
VPDは、複数の候補プログラムをサンプルにすることで、大きな言語モデルの推論能力を蒸留する。
それぞれの正しいプログラムを推論ステップの言語記述に変換し、VLMに蒸留する。
- 参考スコア(独自算出の注目度): 18.296429552645996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving complex visual tasks such as "Who invented the musical instrument on
the right?" involves a composition of skills: understanding space, recognizing
instruments, and also retrieving prior knowledge. Recent work shows promise by
decomposing such tasks using a large language model (LLM) into an executable
program that invokes specialized vision models. However, generated programs are
error-prone: they omit necessary steps, include spurious ones, and are unable
to recover when the specialized models give incorrect outputs. Moreover, they
require loading multiple models, incurring high latency and computation costs.
We propose Visual Program Distillation (VPD), an instruction tuning framework
that produces a vision-language model (VLM) capable of solving complex visual
tasks with a single forward pass. VPD distills the reasoning ability of LLMs by
using them to sample multiple candidate programs, which are then executed and
verified to identify a correct one. It translates each correct program into a
language description of the reasoning steps, which are then distilled into a
VLM. Extensive experiments show that VPD improves the VLM's ability to count,
understand spatial relations, and reason compositionally. Our VPD-trained
PaLI-X outperforms all prior VLMs, achieving state-of-the-art performance
across complex vision tasks, including MMBench, OK-VQA, A-OKVQA, TallyQA, POPE,
and Hateful Memes. An evaluation with human annotators also confirms that VPD
improves model response factuality and consistency. Finally, experiments on
content moderation demonstrate that VPD is also helpful for adaptation to
real-world applications with limited data.
- Abstract(参考訳): 右の楽器を誰が発明したのか?」のような複雑な視覚的タスクを解くには、空間の理解、楽器の認識、事前の知識の獲得といったスキルの合成が必要となる。
最近の研究は、大きな言語モデル(LLM)を用いてタスクを特殊な視覚モデルを呼び出す実行可能なプログラムに分解することで、将来性を示す。
しかし、生成されたプログラムはエラーを起こしやすく、必要なステップを省略し、スプリアスを含む。
さらに、複数のモデルを読み込む必要があり、高いレイテンシと計算コストが発生します。
本稿では,視覚言語モデル(VLM)を1つのフォワードパスで複雑な視覚タスクを解くことができる命令チューニングフレームワークである視覚プログラム蒸留(VPD)を提案する。
VPDはLSMの推論能力を蒸留し、複数の候補プログラムをサンプリングし、そのプログラムを実行して正しいプログラムを特定する。
それぞれの正しいプログラムを推論ステップの言語記述に変換し、VLMに蒸留する。
広範な実験により、vpd は vlm の空間関係を数え、理解し、構成的に理性を向上できることが示されている。
MMBench,OK-VQA,A-OKVQA,TallyQA,POPE,Hateful Memesなど,複雑なビジョンタスクにおける最先端のパフォーマンスを実現する。
ヒューマンアノテータによる評価では、vpdがモデル応答の事実性と一貫性を向上させることも確認されている。
最後に、コンテンツモデレーションの実験により、VPDは限られたデータを持つ現実世界のアプリケーションへの適応にも役立ちます。
関連論文リスト
- Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。
我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。
BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-04-01T04:28:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned
Language Models [77.77951795883698]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
まず,視覚的質問応答,言語からのオブジェクトローカライゼーション,幻覚などの特性を探索する課題セットを対象とする,標準化された評価スイートをコンパイルする。
我々は、事前訓練された視覚表現を含むキー設計軸に沿ったVLMを厳格に調査し、ベース対インストラクション言語モデルを用いたトレードオフの定量化を行う。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。