論文の概要: PropTest: Automatic Property Testing for Improved Visual Programming
- arxiv url: http://arxiv.org/abs/2403.16921v1
- Date: Mon, 25 Mar 2024 16:39:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:34:33.667733
- Title: PropTest: Automatic Property Testing for Improved Visual Programming
- Title(参考訳): PropTest: 改善されたビジュアルプログラミングのための自動プロパティテスト
- Authors: Jaywon Koo, Ziyan Yang, Paola Cascante-Bonilla, Baishakhi Ray, Vicente Ordonez,
- Abstract要約: 提案手法の最初のラウンドで視覚特性をテストするコードを生成するために,LLMを用いて視覚プログラミングを改善する手法であるPropTestを提案する。
提案手法は,より小型で一般公開のLCMを用いて,最先端の手法に匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 22.784749505453775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Programming has emerged as an alternative to end-to-end black-box visual reasoning models. This type of methods leverage Large Language Models (LLMs) to decompose a problem and generate the source code for an executable computer program. This strategy has the advantage of offering an interpretable reasoning path and does not require finetuning a model with task-specific data. We propose PropTest, a general strategy that improves visual programming by further using an LLM to generate code that tests for visual properties in an initial round of proposed solutions. Particularly, our method tests for data-type consistency, as well as syntactic and semantic properties in the generated solutions. Our proposed solution outperforms baselines and achieves comparable results to state-of-the-art methods while using smaller and publicly available LLMs (CodeLlama-7B and WizardCoder-15B). This is demonstrated across different benchmarks on visual question answering and referring expression comprehension, showing the efficacy of our approach in enhancing the performance and generalization of visual reasoning tasks. Specifically, PropTest improves ViperGPT by obtaining 48.66% accuracy (+8.3%) on the A-OKVQA benchmark and 52.8% (+3.3%) on the RefCOCO+ benchmark using CodeLlama-7B.
- Abstract(参考訳): ビジュアルプログラミングは、エンドツーエンドのビジュアル推論モデルの代替として登場した。
このタイプの手法は、LLM(Large Language Models)を利用して問題を分解し、実行可能なコンピュータプログラムのソースコードを生成する。
この戦略は解釈可能な推論パスを提供することの利点があり、タスク固有のデータでモデルを微調整する必要がない。
提案手法の最初のラウンドで,LLMを用いて視覚特性をテストするコードを生成することで,視覚プログラミングを改善する汎用戦略であるPropTestを提案する。
特に,本手法は,生成したソリューションの構文的・意味的特性だけでなく,データ型整合性についても検証する。
提案手法は,より小型で一般公開されたLCM(CodeLlama-7B と WizardCoder-15B)を用いて,ベースラインを上回り,最先端の手法に匹敵する結果が得られる。
これは視覚的質問応答と表現理解の参照に関する様々なベンチマークで示されており、視覚的推論タスクの性能向上と一般化における我々のアプローチの有効性を示している。
具体的には、A-OKVQAベンチマークで48.66%(+8.3%)、CodeLlama-7Bを使ってRefCOCO+ベンチマークで52.8%(+3.3%)の精度でViperGPTを改善する。
関連論文リスト
- Enhancing Large Language Models for Text-to-Testcase Generation [12.864685900686158]
大規模言語モデル(GPT-3.5)に基づくテキスト・ツー・テストケース生成手法を提案する。
提案手法の有効性を,5つの大規模オープンソースプロジェクトを用いて評価した。
論文 参考訳(メタデータ) (2024-02-19T07:50:54Z) - LangProp: A code optimization framework using Large Language Models applied to driving [17.581983909703283]
LangPropは、大規模言語モデル(LLM)によって生成されたコードを反復的に最適化するフレームワークである。
我々は、LangPropが、メトリックとデータ駆動の方法で検証と改善が可能な、解釈可能な、透過的なポリシーをどうやって生成できるかを示す。
論文 参考訳(メタデータ) (2024-01-18T18:52:06Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Enhancing Large Language Models in Coding Through Multi-Perspective
Self-Consistency [137.29711672412952]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Autotuning PolyBench Benchmarks with LLVM Clang/Polly Loop Optimization
Pragmas Using Bayesian Optimization [0.6583716093321499]
オートチューニング(Autotuning)は、カーネルやアプリケーションの実装/設定が可能な検索スペースを探索するアプローチである。
ベイズ最適化を利用してパラメータ空間探索を行う自動チューニングフレームワークを開発した。
論文 参考訳(メタデータ) (2020-10-15T22:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。