論文の概要: VDebugger: Harnessing Execution Feedback for Debugging Visual Programs
- arxiv url: http://arxiv.org/abs/2406.13444v3
- Date: Fri, 04 Oct 2024 04:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:02.412301
- Title: VDebugger: Harnessing Execution Feedback for Debugging Visual Programs
- Title(参考訳): VDebugger: ビジュアルプログラムのデバッグに実行時のフィードバックを損なう
- Authors: Xueqing Wu, Zongyu Lin, Songyan Zhao, Te-Lin Wu, Pan Lu, Nanyun Peng, Kai-Wei Chang,
- Abstract要約: V Debuggerは、視覚プログラムのローカライズとデバッギングのために、段階的に実行を追跡することで訓練された、批評家とリファインダーのフレームワークである。
Vデバッガは、詳細な実行フィードバックを活用してプログラムエラーを特定し、修正する。
6つのデータセットの評価は、Vデバッガの有効性を示し、ダウンストリームタスクの精度が最大3.2%向上したことを示している。
- 参考スコア(独自算出の注目度): 103.61860743476933
- License:
- Abstract: Visual programs are executable code generated by large language models to address visual reasoning problems. They decompose complex questions into multiple reasoning steps and invoke specialized models for each step to solve the problems. However, these programs are prone to logic errors, with our preliminary evaluation showing that 58% of the total errors are caused by program logic errors. Debugging complex visual programs remains a major bottleneck for visual reasoning. To address this, we introduce VDebugger, a novel critic-refiner framework trained to localize and debug visual programs by tracking execution step by step. VDebugger identifies and corrects program errors leveraging detailed execution feedback, improving interpretability and accuracy. The training data is generated through an automated pipeline that injects errors into correct visual programs using a novel mask-best decoding technique. Evaluations on six datasets demonstrate VDebugger's effectiveness, showing performance improvements of up to 3.2% in downstream task accuracy. Further studies show VDebugger's ability to generalize to unseen tasks, bringing a notable improvement of 2.3% on the unseen COVR task. Code, data and models are made publicly available at https://github.com/shirley-wu/vdebugger/
- Abstract(参考訳): ビジュアルプログラムは、視覚的推論問題に対処するために、大きな言語モデルによって生成された実行可能なコードである。
複雑な質問を複数の推論ステップに分解し、各ステップで特別なモデルを実行して問題を解決する。
しかし,これらのプログラムは論理エラーを起こしやすいため,予備評価の結果,総エラーの58%がプログラム論理エラーによるものであることが判明した。
複雑なビジュアルプログラムのデバッグは、視覚的推論の大きなボトルネックである。
VDebuggerは、視覚プログラムのローカライズとデバッグを段階的に行うことで、視覚プログラムのローカライズとデバッグを訓練した、新しい評論家/リファイナフレームワークである。
VDebuggerは、詳細な実行フィードバックを活用してプログラムエラーを特定し、修正する。
トレーニングデータは、新しいマスク-ベストデコーディング技術を用いて、エラーを正しい視覚プログラムに注入する自動パイプラインを通じて生成される。
6つのデータセットの評価は、VDebuggerの有効性を示し、ダウンストリームタスクの精度が最大3.2%向上したことを示している。
さらなる研究は、VDebuggerが未確認のタスクに一般化する能力を示し、未確認のCOVRタスクに対して2.3%の顕著な改善をもたらしたことを示している。
コード、データ、モデルはhttps://github.com/shirley-wu/vdebugger/で公開されている。
関連論文リスト
- NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。
NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文 参考訳(メタデータ) (2024-04-23T01:46:32Z) - The Visual Debugger Tool [1.0624606551524207]
本稿では,プログラム実行情報をオブジェクト図としてグラフィカルに視覚化する。
私たちのツールは、人気のあるJava開発環境IntelliJ IDEAに完全に統合されています。
論文 参考訳(メタデータ) (2024-04-19T15:02:29Z) - CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Leveraging Print Debugging to Improve Code Generation in Large Language
Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。
しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。
そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-10T18:37:59Z) - Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models [17.540937747712082]
視覚言語モデル(VLM)を生成する命令チューニングフレームワークである視覚プログラム蒸留(VPD)を提案する。
VPDは、複数の候補プログラムをサンプルにすることで、大きな言語モデルの推論能力を蒸留する。
それぞれの正しいプログラムを推論ステップの言語記述に変換し、VLMに蒸留する。
論文 参考訳(メタデータ) (2023-12-05T18:58:37Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。
ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。
我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文 参考訳(メタデータ) (2021-04-16T05:27:04Z) - Eye: Program Visualizer for CS2 [1.319058156672392]
Eyeはプログラムの実行を視覚化するインタラクティブツールである。
一般的な環境でのデータ構造の特性と利用を実証する。
EyeはCS2の学生がオンラインプログラミングのWebサイトで利用できる無数のプログラムをより容易に理解するためのゲートウェイを開く。
論文 参考訳(メタデータ) (2021-01-28T16:16:59Z) - Graph-based, Self-Supervised Program Repair from Diagnostic Feedback [108.48853808418725]
本稿では,ソースコードの修復や診断フィードバックに関連するシンボルを結合するプログラムフィードバックグラフを提案する。
次に、推論プロセスのモデル化にグラフニューラルネットワークを適用します。
オンラインで利用可能なラベルのないプログラムを活用するプログラム修復のための自己指導型学習パラダイムを提案する。
論文 参考訳(メタデータ) (2020-05-20T07:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。