論文の概要: ViperGPT: Visual Inference via Python Execution for Reasoning
- arxiv url: http://arxiv.org/abs/2303.08128v1
- Date: Tue, 14 Mar 2023 17:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:38:04.555897
- Title: ViperGPT: Visual Inference via Python Execution for Reasoning
- Title(参考訳): ViperGPT: 推論のためのPythonの実行によるビジュアル推論
- Authors: D\'idac Sur\'is and Sachit Menon and Carl Vondrick
- Abstract要約: 視覚・言語モデルを構成するフレームワークであるViperGPTを導入し,問合せの結果を生成する。
この単純なアプローチでは、さらなるトレーニングは必要とせず、様々な複雑な視覚的タスクで最先端の結果が得られます。
- 参考スコア(独自算出の注目度): 23.56704214763551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering visual queries is a complex task that requires both visual
processing and reasoning. End-to-end models, the dominant approach for this
task, do not explicitly differentiate between the two, limiting
interpretability and generalization. Learning modular programs presents a
promising alternative, but has proven challenging due to the difficulty of
learning both the programs and modules simultaneously. We introduce ViperGPT, a
framework that leverages code-generation models to compose vision-and-language
models into subroutines to produce a result for any query. ViperGPT utilizes a
provided API to access the available modules, and composes them by generating
Python code that is later executed. This simple approach requires no further
training, and achieves state-of-the-art results across various complex visual
tasks.
- Abstract(参考訳): ビジュアルクエリの回答は、ビジュアル処理と推論の両方を必要とする複雑なタスクである。
このタスクの主要なアプローチであるエンド・ツー・エンドのモデルは、解釈可能性と一般化の制限を明示的に区別しない。
モジュールプログラムの学習は有望な代替手段であるが、プログラムとモジュールを同時に学習することが困難であることから、難しいことが証明されている。
ViperGPTは、コード生成モデルを利用して視覚・言語モデルをサブルーチンに構成し、任意のクエリの結果を生成するフレームワークである。
ViperGPTは提供されたAPIを使って利用可能なモジュールにアクセスし、後に実行されるPythonコードを生成する。
このシンプルなアプローチは、さらなるトレーニングを必要とせず、様々な複雑なビジュアルタスクで最先端の成果を達成します。
関連論文リスト
- mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Visual Programming: Compositional visual reasoning without training [24.729624386851388]
VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。
大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
論文 参考訳(メタデータ) (2022-11-18T18:50:09Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - Flamingo: a Visual Language Model for Few-Shot Learning [95.88782798074314]
この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。
柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。
一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
論文 参考訳(メタデータ) (2022-04-29T16:29:01Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z) - Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding [35.01174511816063]
教師あり学習のための疑似言語クエリを自動生成するPseudo-Qという新しい手法を提案する。
本手法は,市販の物体検出装置を利用して,ラベルのない画像から視覚物体を識別する。
マルチレベル・クロスモーダルアテンション機構を備えた視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2022-03-16T09:17:41Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。