論文の概要: Visual Programming: Compositional visual reasoning without training
- arxiv url: http://arxiv.org/abs/2211.11559v1
- Date: Fri, 18 Nov 2022 18:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 17:07:32.181689
- Title: Visual Programming: Compositional visual reasoning without training
- Title(参考訳): ビジュアルプログラミング: トレーニングのない構成的視覚的推論
- Authors: Tanmay Gupta and Aniruddha Kembhavi
- Abstract要約: VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。
大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
- 参考スコア(独自算出の注目度): 24.729624386851388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present VISPROG, a neuro-symbolic approach to solving complex and
compositional visual tasks given natural language instructions. VISPROG avoids
the need for any task-specific training. Instead, it uses the in-context
learning ability of large language models to generate python-like modular
programs, which are then executed to get both the solution and a comprehensive
and interpretable rationale. Each line of the generated program may invoke one
of several off-the-shelf computer vision models, image processing routines, or
python functions to produce intermediate outputs that may be consumed by
subsequent parts of the program. We demonstrate the flexibility of VISPROG on 4
diverse tasks - compositional visual question answering, zero-shot reasoning on
image pairs, factual knowledge object tagging, and language-guided image
editing. We believe neuro-symbolic approaches like VISPROG are an exciting
avenue to easily and effectively expand the scope of AI systems to serve the
long tail of complex tasks that people may wish to perform.
- Abstract(参考訳): 自然言語指示による複雑で構成的な視覚課題を解決するための神経シンボリックアプローチであるvisprogを提案する。
VISPROGはタスク固有のトレーニングを必要としない。
代わりに、大きな言語モデルのコンテキスト内学習機能を使用してpythonライクなモジュラープログラムを生成し、ソリューションと包括的で解釈可能な根拠を得るために実行される。
生成されたプログラムの各行は、市販のコンピュータビジョンモデル、画像処理ルーチン、ピソン関数のいずれかを起動して、プログラムのその後の部分で消費される中間出力を生成することができる。
VISPROGの4つのタスク - 構成的視覚的質問応答、画像対におけるゼロショット推論、事実的知識オブジェクトタグ付け、言語誘導画像編集 - における柔軟性を実証する。
VISPROGのようなニューロシンボリックなアプローチは、AIシステムのスコープを簡単に効果的に拡大し、人々がやりたいと思うような複雑なタスクを長くこなすためのエキサイティングな方法だと思います。
関連論文リスト
- VoxelPrompt: A Vision-Language Agent for Grounded Medical Image Analysis [9.937830036053871]
VoxelPromptは、自然言語、画像ボリューム、分析メトリクスの合同モデリングを通じて、様々な放射線学的な課題に取り組む。
我々は,VoxelPromptが数百の解剖学的,病理学的特徴を記述し,多くの複雑な形態的特性を計測し,病変の特徴をオープン言語で解析できることを示した。
論文 参考訳(メタデータ) (2024-10-10T22:11:43Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Image Manipulation via Multi-Hop Instructions -- A New Dataset and
Weakly-Supervised Neuro-Symbolic Approach [31.380435286215757]
私たちは自然言語による画像操作に興味があります。
NeuroSIMと呼ばれるシステムでは,多目的シーン上で複雑なマルチホップ推論を行うことができる。
論文 参考訳(メタデータ) (2023-05-23T17:59:10Z) - ViperGPT: Visual Inference via Python Execution for Reasoning [23.56704214763551]
視覚・言語モデルを構成するフレームワークであるViperGPTを導入し,問合せの結果を生成する。
この単純なアプローチでは、さらなるトレーニングは必要とせず、様々な複雑な視覚的タスクで最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-03-14T17:57:47Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - Learning compositional programs with arguments and sampling [12.790055619773565]
私たちは、特定の要件を満たすプログラムを見つけるために、機械学習モデルをトレーニングします。
我々は、引数を受理できる関数を生成することを学ぶことによって、アートモデルAlphaNPIの状態を拡張します。
論文 参考訳(メタデータ) (2021-09-01T21:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。