論文の概要: AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering
- arxiv url: http://arxiv.org/abs/2407.19410v1
- Date: Sun, 28 Jul 2024 06:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:22:10.235626
- Title: AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering
- Title(参考訳): AdaCoder: プログラム型視覚質問応答のための適応型プロンプト圧縮
- Authors: Mahiro Ukai, Shuhei Kurita, Atsushi Hashimoto, Yoshitaka Ushiku, Nakamasa Inoue,
- Abstract要約: 本稿では,視覚的質問応答モデルのための適応的プロンプト圧縮フレームワークであるAdaCoderを提案する。
AdaCoderは圧縮フェーズと推論フェーズの2つのフェーズで動作する。
視覚的質問応答の性能を維持・改善しつつ,トークン長を71.1%削減できることを実証した。
- 参考スコア(独自算出の注目度): 23.169961738978614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual question answering aims to provide responses to natural language questions given visual input. Recently, visual programmatic models (VPMs), which generate executable programs to answer questions through large language models (LLMs), have attracted research interest. However, they often require long input prompts to provide the LLM with sufficient API usage details to generate relevant code. To address this limitation, we propose AdaCoder, an adaptive prompt compression framework for VPMs. AdaCoder operates in two phases: a compression phase and an inference phase. In the compression phase, given a preprompt that describes all API definitions in the Python language with example snippets of code, a set of compressed preprompts is generated, each depending on a specific question type. In the inference phase, given an input question, AdaCoder predicts the question type and chooses the appropriate corresponding compressed preprompt to generate code to answer the question. Notably, AdaCoder employs a single frozen LLM and pre-defined prompts, negating the necessity of additional training and maintaining adaptability across different powerful black-box LLMs such as GPT and Claude. In experiments, we apply AdaCoder to ViperGPT and demonstrate that it reduces token length by 71.1%, while maintaining or even improving the performance of visual question answering.
- Abstract(参考訳): 視覚的な質問応答は、視覚的に入力された自然言語の質問に対する応答を提供することを目的としている。
近年,大規模言語モデル (LLM) を通じて質問に答える実行可能なプログラムを生成するビジュアルプログラムモデル (VPM) が研究の関心を集めている。
しかし、LLMに適切なコードを生成するのに十分なAPI使用の詳細を提供するには、長いインプットプロンプトが必要になることが多い。
この制限に対処するため、VPMの適応的なプロンプト圧縮フレームワークであるAdaCoderを提案する。
AdaCoderは圧縮フェーズと推論フェーズの2つのフェーズで動作する。
圧縮フェーズでは、Python言語のすべてのAPI定義をコードスニペットで記述したプリプロンプトが与えられたら、それぞれ特定の質問タイプに依存する圧縮プレプロンプトのセットが生成される。
推論フェーズでは、入力された質問が与えられた場合、AdaCoderは質問タイプを予測し、適切な圧縮プレプロンプトを選択して質問に答えるコードを生成する。
特に、AdaCoderは、単一の凍結LDMと事前定義されたプロンプトを採用しており、追加のトレーニングの必要性を否定し、GPTやClaudeのような異なる強力なブラックボックスLSM間で適応性を維持する。
実験では、AdaCoderをViperGPTに適用し、トークン長を71.1%削減し、視覚的質問応答の性能を維持または改善することを示した。
関連論文リスト
- Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering [12.399738382728653]
視覚的質問応答(VQA)とは、視覚的な入力に基づいて、自然言語の質問に対して正確な回答を提供するタスクである。
本稿ではPVQAモデルのための新しいプロンプトフレームワークであるPraamidCoderを紹介する。
我々の手法は最先端のPVQAモデルと比較して、GQAデータセットで少なくとも0.5%、VQAv2データセットで1.4%、NLVR2データセットで2.9%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-07-30T05:36:43Z) - Learning to Compress Prompt in Natural Language Formats [54.06967020905763]
大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れている。
LLMは、長いコンテキスト、遅い推論速度、高い計算コストによる性能の低下によって制約される。
本研究の目的は、LLM転送性を備えた自然言語形式で長いプロンプトを圧縮することである。
論文 参考訳(メタデータ) (2024-02-28T20:41:21Z) - Say More with Less: Understanding Prompt Learning Behaviors through Gist
Compression [39.233017243612025]
大規模言語モデル(LLM)は、入力コンテキストがユーザの意図に沿った出力を生成するために、長いプロンプトを必要とする。
本稿では,素早い解釈と工学を支援するプロンプトを圧縮する新しい手法を提案する。
Gist-COCOはエンコーダ-デコーダベースの言語モデルを採用し、その後追加のエンコーダをプラグインモジュールとして組み込んでgistトークンを使用してプロンプトを圧縮する。
論文 参考訳(メタデータ) (2024-02-25T11:07:08Z) - SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - Large Language Models Should Ask Clarifying Questions to Increase
Confidence in Generated Code [0.7252027234425334]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
本稿では,LLM生成コミュニケータを用いて,問題記述や生成されたコードに対する曖昧さや信頼性の低い問題を識別する通信中心プロセスを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:33:05Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - Code Prompting: a Neural Symbolic Method for Complex Reasoning in Large
Language Models [74.95486528482327]
コードプロンプト(code prompting)は、ゼロショットバージョンと少数ショットバージョンの両方を持ち、中間ステップとしてコードをトリガーするニューラルシンボルプロンプトである。
我々は,記号的推論と算術的推論を含む7つの広く使用されているベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-05-29T15:14:09Z) - AceCoder: Utilizing Existing Code to Enhance Code Generation [45.034292331340524]
既存のプロンプト技術は自然言語生成用に設計されており、コード生成の精度は低い。
AceCoderには、これらの課題を解決するための2つの新しいメカニズム(ガイド付きコード生成とサンプル検索)が含まれている。
その結果、AceCoderはコード生成におけるLLMの性能を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2023-03-31T02:57:15Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。