論文の概要: ViUniT: Visual Unit Tests for More Robust Visual Programming
- arxiv url: http://arxiv.org/abs/2412.08859v1
- Date: Thu, 12 Dec 2024 01:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:46.399483
- Title: ViUniT: Visual Unit Tests for More Robust Visual Programming
- Title(参考訳): ViUniT: よりロバストなビジュアルプログラミングのためのVisual Unit Tests
- Authors: Artemis Panagopoulou, Honglu Zhou, Silvio Savarese, Caiming Xiong, Chris Callison-Burch, Mark Yatskar, Juan Carlos Niebles,
- Abstract要約: モデルが正しく答えると、不正なプログラムを33%生成します。
自動単体テストを生成することで、視覚プログラムの信頼性を向上させるためのフレームワークであるVisual Unit Testing (ViUniT)を提案する。
- 参考スコア(独自算出の注目度): 104.55763189099125
- License:
- Abstract: Programming based approaches to reasoning tasks have substantially expanded the types of questions models can answer about visual scenes. Yet on benchmark visual reasoning data, when models answer correctly, they produce incorrect programs 33% of the time. These models are often right for the wrong reasons and risk unexpected failures on new data. Unit tests play a foundational role in ensuring code correctness and could be used to repair such failures. We propose Visual Unit Testing (ViUniT), a framework to improve the reliability of visual programs by automatically generating unit tests. In our framework, a unit test is represented as a novel image and answer pair meant to verify the logical correctness of a program produced for a given query. Our method leverages a language model to create unit tests in the form of image descriptions and expected answers and image synthesis to produce corresponding images. We conduct a comprehensive analysis of what constitutes an effective visual unit test suite, exploring unit test generation, sampling strategies, image generation methods, and varying the number of programs and unit tests. Additionally, we introduce four applications of visual unit tests: best program selection, answer refusal, re-prompting, and unsupervised reward formulations for reinforcement learning. Experiments with two models across three datasets in visual question answering and image-text matching demonstrate that ViUniT improves model performance by 11.4%. Notably, it enables 7B open-source models to outperform gpt-4o-mini by an average of 7.7% and reduces the occurrence of programs that are correct for the wrong reasons by 40%.
- Abstract(参考訳): 推論タスクに対するプログラミングベースのアプローチは、モデルが視覚的なシーンについて答えられる質問の種類を大幅に拡大しました。
しかし、ベンチマークによる視覚的推論データでは、モデルが正しく答えると、誤ったプログラムを33%生成する。
これらのモデルは、しばしば間違った理由で正しく、新しいデータに対して予期せぬ失敗を犯す。
単体テストは、コードの正しさを保証する上で基礎的な役割を果たす。
自動単体テストを生成することで、視覚プログラムの信頼性を向上させるためのフレームワークであるVisual Unit Testing (ViUniT)を提案する。
本フレームワークでは,与えられたクエリに対して生成したプログラムの論理的正当性を検証することを目的とした,新しい画像と解答ペアとして,単体テストが表現される。
提案手法は,言語モデルを用いて画像記述と期待された回答と画像合成という形で単体テストを作成し,対応する画像を生成する。
有効な視覚的単体テストスイートを構成するものを総合的に分析し、単体テスト生成、サンプリング戦略、画像生成方法、プログラム数や単体テストのバリエーションを探索する。
さらに,視覚的単体テストの4つの応用として,最良のプログラム選択,解答拒否,再試行,強化学習のための教師なし報酬の定式化を紹介した。
視覚的質問応答と画像テキストマッチングの3つのデータセットにわたる2つのモデルによる実験は、ViUniTがモデル性能を11.4%改善することを示した。
特に、7Bのオープンソースモデルはgpt-4o-miniを平均7.7%上回り、間違った理由で正しいプログラムの発生を40%削減できる。
関連論文リスト
- Vision-Language In-Context Learning Driven Few-Shot Visual Inspection Model [0.5497663232622965]
非欠陥品や欠陥品の少数ショット画像を用いた視覚言語モデル(VLM)を用いた一般的な視覚検査モデルを提案する。
新たな製品に対して,本手法では,非欠陥画像や欠陥画像の例を用いて,モデルが検査を行うことができるIn-Context Learningを採用している。
論文 参考訳(メタデータ) (2025-02-13T08:11:10Z) - Dynamic Scaling of Unit Tests for Code Reward Modeling [27.349232888627558]
現在の大規模言語モデル(LLM)は、コード生成のような複雑な推論タスクの最初の試みにおいて、正確な応答を生成するのに苦労することが多い。
高速かつ高品質な単体テストスケーリングを実現する軽量で効率的な単体テストジェネレータであるCodeRM-8Bを提案する。
論文 参考訳(メタデータ) (2025-01-02T04:33:31Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - LANCE: Stress-testing Visual Models by Generating Language-guided
Counterfactual Images [20.307968197151897]
言語誘導型対実テスト画像(LANCE)を生成することにより、訓練された視覚モデルをストレステストする自動アルゴリズムを提案する。
提案手法は,大規模言語モデリングとテキストベースの画像編集の最近の進歩を利用して,モデル重みを変更することなく,多種多様で現実的で挑戦的なテスト画像の集合を用いてIIDテストセットを増強する。
論文 参考訳(メタデータ) (2023-05-30T16:09:16Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。