論文の概要: Can We Generate Visual Programs Without Prompting LLMs?
- arxiv url: http://arxiv.org/abs/2412.08564v1
- Date: Wed, 11 Dec 2024 17:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:07.234234
- Title: Can We Generate Visual Programs Without Prompting LLMs?
- Title(参考訳): LLMを使わずにビジュアルプログラムを生成できるのか?
- Authors: Michal Shlapentokh-Rothman, Yu-Xiong Wang, Derek Hoiem,
- Abstract要約: 我々のゴールは,1)推論時にプロンプトベースのLCMを使用しない効率的なビジュアルプログラミングシステムを開発すること,2)大量のプログラムと応答アノテーションを使用することである。
データ拡張により、プロンプトフリーの小さなLCMは、より高速な推論の利点を付加した最先端のアートモデルと競合する。
- 参考スコア(独自算出の注目度): 36.09275994799905
- License:
- Abstract: Visual programming prompts LLMs (large language mod-els) to generate executable code for visual tasks like visual question answering (VQA). Prompt-based methods are difficult to improve while also being unreliable and costly in both time and money. Our goal is to develop an efficient visual programming system without 1) using prompt-based LLMs at inference time and 2) a large set of program and answer annotations. We develop a synthetic data augmentation approach and alternative program generation method based on decoupling programs into higher-level skills called templates and the corresponding arguments. Our results show that with data augmentation, prompt-free smaller LLMs ($\approx$ 1B parameters) are competitive with state-of-the art models with the added benefit of much faster inference
- Abstract(参考訳): ビジュアルプログラミングは、視覚的質問応答(VQA)のような視覚的タスクのための実行可能なコードを生成するためにLLM(大きな言語モジュール)を誘導する。
プロンプトベースの手法は、時間とお金の両方で信頼性が低く費用もかかるため、改善が難しい。
私たちのゴールは、効率的なビジュアルプログラミングシステムを開発することです。
1)推測時におけるプロンプトベースのLCMの使用
2) 大量のプログラムと回答アノテーション。
本研究では,プログラムをテンプレートとそれに対応する引数と呼ばれる高レベルなスキルに分解した合成データ拡張手法と代替プログラム生成手法を開発する。
以上の結果から,データ拡張では,プロンプトフリーの小型LCM(\approx$1Bパラメータ)が最先端技術モデルと競合し,より高速な推論が可能であることが示唆された。
関連論文リスト
- From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis [38.256412418893554]
視覚言語モデル(VLM)における多段階推論について検討する。
まず、質問のステップをサブクエストにインターリーブする、最小から最短の視覚的推論パラダイムを導入する。
画像に対する質問や多段階の推論経路を自動生成する新しいデータ合成手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:04:10Z) - Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。
視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。
本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-09T08:23:20Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models [17.540937747712082]
視覚言語モデル(VLM)を生成する命令チューニングフレームワークである視覚プログラム蒸留(VPD)を提案する。
VPDは、複数の候補プログラムをサンプルにすることで、大きな言語モデルの推論能力を蒸留する。
それぞれの正しいプログラムを推論ステップの言語記述に変換し、VLMに蒸留する。
論文 参考訳(メタデータ) (2023-12-05T18:58:37Z) - Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot
Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。
外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。
Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2023-02-09T18:57:56Z) - Using Large Language Models to Generate Engaging Captions for Data
Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。
主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。
我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文 参考訳(メタデータ) (2022-12-27T23:56:57Z) - Transformer-based Program Synthesis for Low-Data Environments [0.0]
大規模な事前学習型トランスフォーマーモデル(GPT2/3, T5)は、入力/出力の一連の例を満たすプログラムを生成するためにプログラム合成に使われている。
本稿では,これら2つの問題に対処するために,プログラミング言語の属性付き文脈自由文法を用いてプログラムを生成する手法について検討する。
まず、合成データセットを効率的に作成でき、十分なデータでトランスフォーマーモデルを提供できることを発見した。
また,プログラム属性へのアクセスをモデルに与えることは,低データ環境において特に有効であることがわかった。
論文 参考訳(メタデータ) (2022-05-18T23:33:33Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。