Fugu-MT 論文翻訳(概要): PropTest: Automatic Property Testing for Improved Visual Programming

論文の概要: PropTest: Automatic Property Testing for Improved Visual Programming

arxiv url: http://arxiv.org/abs/2403.16921v1
Date: Mon, 25 Mar 2024 16:39:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 20:34:33.667733
Title: PropTest: Automatic Property Testing for Improved Visual Programming
Title（参考訳）: PropTest: 改善されたビジュアルプログラミングのための自動プロパティテスト
Authors: Jaywon Koo, Ziyan Yang, Paola Cascante-Bonilla, Baishakhi Ray, Vicente Ordonez,
Abstract要約: 提案手法の最初のラウンドで視覚特性をテストするコードを生成するために,LLMを用いて視覚プログラミングを改善する手法であるPropTestを提案する。提案手法は,より小型で一般公開のLCMを用いて,最先端の手法に匹敵する性能を実現している。
参考スコア（独自算出の注目度）: 22.784749505453775
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Programming has emerged as an alternative to end-to-end black-box visual reasoning models. This type of methods leverage Large Language Models (LLMs) to decompose a problem and generate the source code for an executable computer program. This strategy has the advantage of offering an interpretable reasoning path and does not require finetuning a model with task-specific data. We propose PropTest, a general strategy that improves visual programming by further using an LLM to generate code that tests for visual properties in an initial round of proposed solutions. Particularly, our method tests for data-type consistency, as well as syntactic and semantic properties in the generated solutions. Our proposed solution outperforms baselines and achieves comparable results to state-of-the-art methods while using smaller and publicly available LLMs (CodeLlama-7B and WizardCoder-15B). This is demonstrated across different benchmarks on visual question answering and referring expression comprehension, showing the efficacy of our approach in enhancing the performance and generalization of visual reasoning tasks. Specifically, PropTest improves ViperGPT by obtaining 48.66% accuracy (+8.3%) on the A-OKVQA benchmark and 52.8% (+3.3%) on the RefCOCO+ benchmark using CodeLlama-7B.
Abstract（参考訳）: ビジュアルプログラミングは、エンドツーエンドのビジュアル推論モデルの代替として登場した。このタイプの手法は、LLM(Large Language Models)を利用して問題を分解し、実行可能なコンピュータプログラムのソースコードを生成する。この戦略は解釈可能な推論パスを提供することの利点があり、タスク固有のデータでモデルを微調整する必要がない。提案手法の最初のラウンドで,LLMを用いて視覚特性をテストするコードを生成することで,視覚プログラミングを改善する汎用戦略であるPropTestを提案する。特に,本手法は,生成したソリューションの構文的・意味的特性だけでなく,データ型整合性についても検証する。提案手法は,より小型で一般公開されたLCM(CodeLlama-7B と WizardCoder-15B)を用いて,ベースラインを上回り,最先端の手法に匹敵する結果が得られる。これは視覚的質問応答と表現理解の参照に関する様々なベンチマークで示されており、視覚的推論タスクの性能向上と一般化における我々のアプローチの有効性を示している。具体的には、A-OKVQAベンチマークで48.66%(+8.3%)、CodeLlama-7Bを使ってRefCOCO+ベンチマークで52.8%(+3.3%)の精度でViperGPTを改善する。

関連論文リスト

Test code generation at Ericsson using Program Analysis Augmented Fine Tuned LLMs [1.4798334915529776]
我々はEricssonでLarge Language Models (LLM)を用いたテストコード生成について述べる。私たちの入力は自然言語(英語)のテストステップであり、アウトプットはテストステップを達成するコード(Java)です。
論文参考訳（メタデータ） (2025-04-23T18:18:18Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
LLM-based Unit Test Generation for Dynamically-Typed Programs [16.38145000434927]
TypeTestは、ベクトルベースのRetrieval-Augmented Generationシステムを通じて、テスト生成における型正しさを高める新しいフレームワークである。 125の現実世界のPythonモジュールの評価において、TypeTestは平均で86.6%、ブランチで76.8%を獲得し、それぞれ5.4%、9.3%の最先端ツールを上回った。
論文参考訳（メタデータ） (2025-03-18T08:07:17Z)
AugmenTest: Enhancing Tests with LLM-Driven Oracles [2.159639193866661]
AugmenTestは、大規模な言語モデルを活用して、テスト中のソフトウェアの利用可能なドキュメントに基づいて、正しいオーラクルを推測するアプローチである。 AugmenTestには4つのバリエーションがある: Simple Prompt、Extended Prompt、ジェネリックプロンプト付きRAG(テスト中のクラスやメソッドのコンテキストなしで)とSimple Prompt付きRAG。結果は、最も保守的なシナリオでは、AugmenTestのExtended PromptがSimple Promptを一貫して上回り、正しいアサーションを生成するために30%の成功率を達成したことを示している。
論文参考訳（メタデータ） (2025-01-29T07:45:41Z)
Improving the Readability of Automatically Generated Tests using Large Language Models [7.7149881834358345]
探索型ジェネレータの有効性とLLM生成試験の可読性を組み合わせることを提案する。提案手法は,検索ツールが生成するテスト名や変数名の改善に重点を置いている。
論文参考訳（メタデータ） (2024-12-25T09:08:53Z)
ViUniT: Visual Unit Tests for More Robust Visual Programming [104.55763189099125]
モデルが正しく答えると、不正なプログラムを33%生成します。自動単体テストを生成することで、視覚プログラムの信頼性を向上させるためのフレームワークであるVisual Unit Testing (ViUniT)を提案する。
論文参考訳（メタデータ） (2024-12-12T01:36:18Z)
Planning-Driven Programming: A Large Language Model Programming Workflow [8.827173113748701]
大規模言語モデル(LLM)は、コード生成の強力な候補である。近年の研究では、LCMのコード生成精度を向上させるために、可視性テストによる継続的プログラム改善が提案されている。初期コード生成とその後の改良の両方を改善するために,LLMプログラミングワークフロー(LPW)を提案する。
論文参考訳（メタデータ） (2024-11-21T08:31:06Z)
ReasonAgain: Using Extractable Symbolic Programs to Evaluate Mathematical Reasoning [54.70811660561151]
既存の数学データセットは、最終回答または静的例から派生した中間推論ステップを用いて、大規模言語モデル(LLM)の推論能力を評価する。モデルがプログラムへの様々な入力に対して常に正しい最終回答を生成できる場合、シンボルプログラムを自動評価の手段として利用したいと考えている。提案手法は, 従来の静的な例と比較して, 精度の低下を観測し, 現状のLLMにおける数学推論の脆弱さを示唆する。
論文参考訳（メタデータ） (2024-10-24T18:02:37Z)
Rethinking the Influence of Source Code on Test Case Generation [22.168699378889148]
大規模言語モデル(LLM)は、コンテキストとして提供されるテスト対象のソースコードでテスト生成を支援するために広く応用されている。テスト中のソースコードが間違っていれば、LLMはテストの生成時に誤用されるだろうか? 評価結果から, 誤りコードは, 正しい, 高いカバレッジ, バグ修正テストを生成する際に, LLMを著しく誤解させる可能性が示唆された。
論文参考訳（メタデータ） (2024-09-14T15:17:34Z)
LangProp: A code optimization framework using Large Language Models applied to driving [17.581983909703283]
LangPropは、大規模言語モデル(LLM)によって生成されたコードを反復的に最適化するフレームワークである。我々は、LangPropが、メトリックとデータ駆動の方法で検証と改善が可能な、解釈可能な、透過的なポリシーをどうやって生成できるかを示す。
論文参考訳（メタデータ） (2024-01-18T18:52:06Z)
LLM4VV: Developing LLM-Driven Testsuite for Compiler Validation [7.979116939578324]
大規模言語モデル(LLM)は、自然言語を含む幅広いアプリケーションのための強力なツールである。オープンソースLLM -- Meta Codellama、PhindによるCodellama、Deepseek Deepseek Coder、クローズソースLLM -- OpenAI GPT-3.5-Turbo、GPT-4-Turboなど、最先端のLLMの機能について検討する。
論文参考訳（メタデータ） (2023-10-08T01:43:39Z)
Enhancing Large Language Models in Coding Through Multi-Perspective Self-Consistency [127.97467912117652]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示した。しかし、単一の試みで正しいソリューションを生成することは依然として課題である。本稿では,MPSC(Multi-Perspective Self-Consistency)フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-29T14:23:26Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)
An Empirical Evaluation of Using Large Language Models for Automated Unit Test Generation [3.9762912548964864]
本稿では,自動単体テスト生成における大規模言語モデルの有効性について,大規模な実証評価を行った。これはJavaScript用のテスト生成ツールで、npmパッケージ内のすべてのAPI関数のユニットテストを自動的に生成します。 TestPilotの生成されたテストの92.8%は、既存のテストと50%以上の類似性を持っていない。
論文参考訳（メタデータ） (2023-02-13T17:13:41Z)
Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文参考訳（メタデータ） (2022-08-11T17:41:08Z)
CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。 CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文参考訳（メタデータ） (2022-07-21T10:18:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。