Fugu-MT 論文翻訳(概要): Template-Based Visual Program Distillation

論文の概要: Template-Based Visual Program Distillation

arxiv url: http://arxiv.org/abs/2412.08564v2
Date: Wed, 19 Feb 2025 01:01:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 15:43:05.911747
Title: Template-Based Visual Program Distillation
Title（参考訳）: テンプレートベースのビジュアルプログラム蒸留
Authors: Michal Shlapentokh-Rothman, Yu-Xiong Wang, Derek Hoiem,
Abstract要約: 小さな言語モデルは、はるかに高速な推論の利点を付加して高品質なビジュアルプログラムを生成することができる。パラメータが10億未満のモデルに使用できる,低コストなビジュアルプログラム蒸留法を提案する。
参考スコア（独自算出の注目度）: 36.09275994799905
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For users with limited computational resources, visual programming or prompting large language models (LLMs) to generate executable code for visual tasks, like visual question answering (VQA), remains largely inaccessible. Even with techniques such as distillation, adapting visual programming to smaller models or specific datasets is still quite challenging due to high annotation costs. We propose a low-cost visual program distillation method that can be used for models with fewer than 1 billion parameters and requires no human-generated program annotations. We achieve this through synthetic data augmentation based on decoupling programs into higher-level skills, called templates, and their corresponding arguments. Experimental results show that, with a relatively small amount of question/answer data, small language models can generate high-quality visual programs with the added benefit of much faster inference.
Abstract（参考訳）: 限られた計算資源を持つユーザにとって、視覚的なプログラミングや、視覚的な質問応答(VQA)のような視覚的なタスクのための実行可能なコードを生成するための大きな言語モデル(LLM)は、ほとんどアクセスできないままである。蒸留のような技術であっても、より小さなモデルや特定のデータセットにビジュアルプログラミングを適用することは、高いアノテーションコストのため、依然として非常に難しい。本稿では,10億以上のパラメータを持つモデルに対して,人為的なプログラムアノテーションを必要としない,低コストなビジュアルプログラム蒸留法を提案する。我々は,プログラムをテンプレートと呼ばれる高度なスキルに分解した合成データ拡張とそれに対応する議論によってこれを達成した。実験結果から,比較的少ない問合せ/問合せデータを用いて,より高速な推論を施した高品質なビジュアルプログラムを小型言語モデルで生成できることが示唆された。

関連論文リスト

From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis [38.256412418893554]
視覚言語モデル(VLM)における多段階推論について検討する。まず、質問のステップをサブクエストにインターリーブする、最小から最短の視覚的推論パラダイムを導入する。画像に対する質問や多段階の推論経路を自動生成する新しいデータ合成手法を提案する。
論文参考訳（メタデータ） (2024-06-28T14:04:10Z)
Memory-Space Visual Prompting for Efficient Vision-Language Fine-Tuning [59.13366859237086]
大規模視覚言語(VL)モデルを効率的に構築するための現在のソリューションは、2段階のパラダイムに従う。視覚情報に関連するタスクに対処する際の言語モデルを容易にする追加知識として視覚的プロンプトを考察する。本稿では,視覚的知識注入のためのFFNの重み付けにより視覚的プロンプトを記憶する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-09T08:23:20Z)
Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文参考訳（メタデータ） (2024-04-06T13:25:00Z)
Learning to Prompt with Text Only Supervision for Vision-Language Models [107.282881515667]
メソッドの1つのブランチは、視覚情報を使用してプロンプトを学習することでCLIPに適応する。別のアプローチでは、大規模な言語モデルからクラス記述を生成することで、トレーニング不要の手法を利用する。そこで本研究では,テキストデータのみを用いてプロンプトを学習することで,両ストリームの強みを組み合わせることを提案する。
論文参考訳（メタデータ） (2024-01-04T18:59:49Z)
A Prompt Learning Framework for Source Code Summarization [19.24919436211323]
本稿では,PromptCSと呼ばれるコード要約のための効果的なプロンプト学習フレームワークを提案する。 PromptCSはプロンプトエージェントを訓練し、コード要約において大きな言語モデルの可能性を解き放つために連続的なプロンプトを生成する。
論文参考訳（メタデータ） (2023-12-26T14:37:55Z)
Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models [17.540937747712082]
視覚言語モデル(VLM)を生成する命令チューニングフレームワークである視覚プログラム蒸留(VPD)を提案する。 VPDは、複数の候補プログラムをサンプルにすることで、大きな言語モデルの推論能力を蒸留する。それぞれの正しいプログラムを推論ステップの言語記述に変換し、VLMに蒸留する。
論文参考訳（メタデータ） (2023-12-05T18:58:37Z)
De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文参考訳（メタデータ） (2023-11-21T06:24:09Z)
Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文参考訳（メタデータ） (2023-04-20T17:09:12Z)
Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文参考訳（メタデータ） (2023-04-17T09:27:40Z)
Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning [153.98100182439165]
本稿では,Flamingo上に構築されたRetrieval-augmented Visual Language Model,Re-ViLMを紹介する。外部データベースに特定の知識を明示的に格納することで、モデルパラメータの数を減らすことができる。 Re-ViLMは画像・テキスト生成タスクの性能を大幅に向上させることを示した。
論文参考訳（メタデータ） (2023-02-09T18:57:56Z)
Using Large Language Models to Generate Engaging Captions for Data Visualizations [51.98253121636079]
大規模言語モデル(LLM)は、高度なディープラーニング技術を用いて人間のような散文を生成する。主な課題は、プロンプトエンジニアリングと呼ばれるLLMの最も効果的なプロンプトを設計することである。我々は,LLM GPT-3を用いた最初の実験について報告し,いくつかの有望な結果を得た。
論文参考訳（メタデータ） (2022-12-27T23:56:57Z)
Transformer-based Program Synthesis for Low-Data Environments [0.0]
大規模な事前学習型トランスフォーマーモデル(GPT2/3, T5)は、入力/出力の一連の例を満たすプログラムを生成するためにプログラム合成に使われている。本稿では,これら2つの問題に対処するために,プログラミング言語の属性付き文脈自由文法を用いてプログラムを生成する手法について検討する。まず、合成データセットを効率的に作成でき、十分なデータでトランスフォーマーモデルを提供できることを発見した。また,プログラム属性へのアクセスをモデルに与えることは,低データ環境において特に有効であることがわかった。
論文参考訳（メタデータ） (2022-05-18T23:33:33Z)
Learning compositional programs with arguments and sampling [12.790055619773565]
私たちは、特定の要件を満たすプログラムを見つけるために、機械学習モデルをトレーニングします。我々は、引数を受理できる関数を生成することを学ぶことによって、アートモデルAlphaNPIの状態を拡張します。
論文参考訳（メタデータ） (2021-09-01T21:27:41Z)
How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文参考訳（メタデータ） (2021-03-22T01:48:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。