論文の概要: Template-Based Visual Program Distillation
- arxiv url: http://arxiv.org/abs/2412.08564v2
- Date: Wed, 19 Feb 2025 01:01:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:57:17.543910
- Title: Template-Based Visual Program Distillation
- Title(参考訳): テンプレートベースのビジュアルプログラム蒸留
- Authors: Michal Shlapentokh-Rothman, Yu-Xiong Wang, Derek Hoiem,
- Abstract要約: 小さな言語モデルは、はるかに高速な推論の利点を付加して高品質なビジュアルプログラムを生成することができる。
パラメータが10億未満のモデルに使用できる,低コストなビジュアルプログラム蒸留法を提案する。
- 参考スコア(独自算出の注目度): 36.09275994799905
- License:
- Abstract: For users with limited computational resources, visual programming or prompting large language models (LLMs) to generate executable code for visual tasks, like visual question answering (VQA), remains largely inaccessible. Even with techniques such as distillation, adapting visual programming to smaller models or specific datasets is still quite challenging due to high annotation costs. We propose a low-cost visual program distillation method that can be used for models with fewer than 1 billion parameters and requires no human-generated program annotations. We achieve this through synthetic data augmentation based on decoupling programs into higher-level skills, called templates, and their corresponding arguments. Experimental results show that, with a relatively small amount of question/answer data, small language models can generate high-quality visual programs with the added benefit of much faster inference.
- Abstract(参考訳): 限られた計算資源を持つユーザにとって、視覚的なプログラミングや、視覚的な質問応答(VQA)のような視覚的なタスクのための実行可能なコードを生成するための大きな言語モデル(LLM)は、ほとんどアクセスできないままである。
蒸留のような技術であっても、より小さなモデルや特定のデータセットにビジュアルプログラミングを適用することは、高いアノテーションコストのため、依然として非常に難しい。
本稿では,10億以上のパラメータを持つモデルに対して,人為的なプログラムアノテーションを必要としない,低コストなビジュアルプログラム蒸留法を提案する。
我々は,プログラムをテンプレートと呼ばれる高度なスキルに分解した合成データ拡張とそれに対応する議論によってこれを達成した。
実験結果から,比較的少ない問合せ/問合せデータを用いて,より高速な推論を施した高品質なビジュアルプログラムを小型言語モデルで生成できることが示唆された。
関連論文リスト
- From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis [38.256412418893554]
視覚言語モデル(VLM)における多段階推論について検討する。
まず、質問のステップをサブクエストにインターリーブする、最小から最短の視覚的推論パラダイムを導入する。
画像に対する質問や多段階の推論経路を自動生成する新しいデータ合成手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:04:10Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models [17.540937747712082]
視覚言語モデル(VLM)を生成する命令チューニングフレームワークである視覚プログラム蒸留(VPD)を提案する。
VPDは、複数の候補プログラムをサンプルにすることで、大きな言語モデルの推論能力を蒸留する。
それぞれの正しいプログラムを推論ステップの言語記述に変換し、VLMに蒸留する。
論文 参考訳(メタデータ) (2023-12-05T18:58:37Z) - Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。
外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。
Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2023-02-09T18:57:56Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z) - Transformer-based Program Synthesis for Low-Data Environments [0.0]
大規模な事前学習型トランスフォーマーモデル(GPT2/3, T5)は、入力/出力の一連の例を満たすプログラムを生成するためにプログラム合成に使われている。
本稿では,これら2つの問題に対処するために,プログラミング言語の属性付き文脈自由文法を用いてプログラムを生成する手法について検討する。
まず、合成データセットを効率的に作成でき、十分なデータでトランスフォーマーモデルを提供できることを発見した。
また,プログラム属性へのアクセスをモデルに与えることは,低データ環境において特に有効であることがわかった。
論文 参考訳(メタデータ) (2022-05-18T23:33:33Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。