論文の概要: PropTest: Automatic Property Testing for Improved Visual Programming
- arxiv url: http://arxiv.org/abs/2403.16921v2
- Date: Mon, 22 Jul 2024 23:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 22:43:37.178806
- Title: PropTest: Automatic Property Testing for Improved Visual Programming
- Title(参考訳): PropTest: 改善されたビジュアルプログラミングのための自動プロパティテスト
- Authors: Jaywon Koo, Ziyan Yang, Paola Cascante-Bonilla, Baishakhi Ray, Vicente Ordonez,
- Abstract要約: PropTestは、LLMを使用して、提案されたソリューションの最初のラウンドで視覚特性をテストするコードを生成することで、ビジュアルプログラミングを改善する一般的な戦略である。
PropTestは、公開されているLLMを使用しながら、最先端のメソッドに匹敵する結果を得る。
- 参考スコア(独自算出の注目度): 22.784749505453775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Programming has recently emerged as an alternative to end-to-end black-box visual reasoning models. This type of method leverages Large Language Models (LLMs) to generate the source code for an executable computer program that solves a given problem. This strategy has the advantage of offering an interpretable reasoning path and does not require finetuning a model with task-specific data. We propose PropTest, a general strategy that improves visual programming by further using an LLM to generate code that tests for visual properties in an initial round of proposed solutions. Our method generates tests for data-type consistency, output syntax, and semantic properties. PropTest achieves comparable results to state-of-the-art methods while using publicly available LLMs. This is demonstrated across different benchmarks on visual question answering and referring expression comprehension. Particularly, PropTest improves ViperGPT by obtaining 46.1\% accuracy (+6.0\%) on GQA using Llama3-8B and 59.5\% (+8.1\%) on RefCOCO+ using CodeLlama-34B.
- Abstract(参考訳): Visual Programmingは最近、エンドツーエンドのビジュアル推論モデルの代替として登場した。
この方式は、LLM(Large Language Models)を利用して、与えられた問題を解決する実行可能なコンピュータプログラムのソースコードを生成する。
この戦略は解釈可能な推論パスを提供することの利点があり、タスク固有のデータでモデルを微調整する必要がない。
提案手法の最初のラウンドで,LLMを用いて視覚特性をテストするコードを生成することで,視覚プログラミングを改善する汎用戦略であるPropTestを提案する。
提案手法は,データ型整合性,出力構文,セマンティックプロパティのテストを生成する。
PropTestは、公開されているLLMを使用しながら、最先端のメソッドに匹敵する結果を得る。
これは視覚的質問応答と表現理解の参照に関する様々なベンチマークで実証されている。
特にPropTestは、Llama3-8BでGQAで46.1\%(+6.0\%)、CodeLlama-34BでRefCOCO+で59.5\%(+8.1\%)の精度でViperGPTを改善する。
関連論文リスト
- LangProp: A code optimization framework using Large Language Models applied to driving [17.581983909703283]
LangPropは、大規模言語モデル(LLM)によって生成されたコードを反復的に最適化するフレームワークである。
我々は、LangPropが、メトリックとデータ駆動の方法で検証と改善が可能な、解釈可能な、透過的なポリシーをどうやって生成できるかを示す。
論文 参考訳(メタデータ) (2024-01-18T18:52:06Z) - De-Hallucinator: Mitigating LLM Hallucinations in Code Generation Tasks via Iterative Grounding [18.129031749321058]
公開ソースコードのデータセットに基づいてトレーニングされた大規模言語モデル(LLM)は、コード生成タスクにおける新たな最先端技術を確立した。
LLMは、主に特定のプロジェクトに存在するコードに気づいていないため、モデルが既存のAPIをうまく利用できない。
本稿では,適切なAPI参照を検索する新たな組み合わせにより,LLMの予測を基礎とするDe-Hallucinatorを提案する。
論文 参考訳(メタデータ) (2024-01-03T12:09:43Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - LLM4VV: Developing LLM-Driven Testsuite for Compiler Validation [7.979116939578324]
大規模言語モデル(LLM)は、自然言語を含む幅広いアプリケーションのための強力なツールである。
オープンソースLLM -- Meta Codellama、PhindによるCodellama、Deepseek Deepseek Coder、クローズソースLLM -- OpenAI GPT-3.5-Turbo、GPT-4-Turboなど、最先端のLLMの機能について検討する。
論文 参考訳(メタデータ) (2023-10-08T01:43:39Z) - Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。
しかし、単一の試みで正しいソリューションを生成することは依然として課題である。
本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T14:23:26Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z) - An Empirical Evaluation of Using Large Language Models for Automated
Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。
これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。
TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文 参考訳(メタデータ) (2023-02-13T17:13:41Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。