論文の概要: ViperGPT: Visual Inference via Python Execution for Reasoning
- arxiv url: http://arxiv.org/abs/2303.08128v1
- Date: Tue, 14 Mar 2023 17:57:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:38:04.555897
- Title: ViperGPT: Visual Inference via Python Execution for Reasoning
- Title(参考訳): ViperGPT: 推論のためのPythonの実行によるビジュアル推論
- Authors: D\'idac Sur\'is and Sachit Menon and Carl Vondrick
- Abstract要約: 視覚・言語モデルを構成するフレームワークであるViperGPTを導入し,問合せの結果を生成する。
この単純なアプローチでは、さらなるトレーニングは必要とせず、様々な複雑な視覚的タスクで最先端の結果が得られます。
- 参考スコア(独自算出の注目度): 23.56704214763551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Answering visual queries is a complex task that requires both visual
processing and reasoning. End-to-end models, the dominant approach for this
task, do not explicitly differentiate between the two, limiting
interpretability and generalization. Learning modular programs presents a
promising alternative, but has proven challenging due to the difficulty of
learning both the programs and modules simultaneously. We introduce ViperGPT, a
framework that leverages code-generation models to compose vision-and-language
models into subroutines to produce a result for any query. ViperGPT utilizes a
provided API to access the available modules, and composes them by generating
Python code that is later executed. This simple approach requires no further
training, and achieves state-of-the-art results across various complex visual
tasks.
- Abstract(参考訳): ビジュアルクエリの回答は、ビジュアル処理と推論の両方を必要とする複雑なタスクである。
このタスクの主要なアプローチであるエンド・ツー・エンドのモデルは、解釈可能性と一般化の制限を明示的に区別しない。
モジュールプログラムの学習は有望な代替手段であるが、プログラムとモジュールを同時に学習することが困難であることから、難しいことが証明されている。
ViperGPTは、コード生成モデルを利用して視覚・言語モデルをサブルーチンに構成し、任意のクエリの結果を生成するフレームワークである。
ViperGPTは提供されたAPIを使って利用可能なモジュールにアクセスし、後に実行されるPythonコードを生成する。
このシンプルなアプローチは、さらなるトレーニングを必要とせず、様々な複雑なビジュアルタスクで最先端の成果を達成します。
関連論文リスト
- De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Analyzing Modular Approaches for Visual Question Decomposition [38.73070270272822]
追加トレーニングのないモジュラニューラルネットワークは、最近、視覚言語タスクでエンドツーエンドのニューラルネットワークを上回ることが示されている。
本稿では、その追加性能がどこから来たのか、また、それが仮定する(最先端、エンドツーエンドの)BLIP-2モデルと、追加のシンボルコンポーネントとの違いについて尋ねる。
We found that ViperGPT's report gains over BLIP-2 may be due to its selection of task-specific modules, and we run ViperGPT using a task-agnostic selection of modules, and these gains away。
論文 参考訳(メタデータ) (2023-11-10T22:14:26Z) - GENOME: GenerativE Neuro-symbOlic visual reasoning by growing and
reusing ModulEs [64.49176353858792]
本稿では,モジュールの増殖・再利用による生成的ニューロシンボリック視覚推論を提案する。
提案モデルは,視覚的質問応答や表現理解の参照など,標準的なタスクに対して競合的に機能する。
いくつかのトレーニング例を観察し、モジュールを再使用することで、新しい視覚的推論タスクに適応することができる。
論文 参考訳(メタデータ) (2023-11-08T18:59:05Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - Modular Visual Question Answering via Code Generation [134.59005611826777]
モジュラーコード生成として視覚的質問応答を定式化するフレームワークを提案する。
提案手法では、事前学習言語モデル(LM)、画像キャプチャペアで事前学習した視覚モデル、コンテキスト内学習に使用する50のVQA例など、追加のトレーニングは不要である。
コード生成を行わない少数のベースラインと比較して,COVRデータセットの精度を少なくとも3%,GQAデータセットの精度を約2%向上させる。
論文 参考訳(メタデータ) (2023-06-08T17:45:14Z) - Visual Programming: Compositional visual reasoning without training [24.729624386851388]
VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。
大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
論文 参考訳(メタデータ) (2022-11-18T18:50:09Z) - Flamingo: a Visual Language Model for Few-Shot Learning [95.88782798074314]
この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。
柔軟性のおかげで、Flamingoモデルは大規模なマルチモーダルWebコーパスでトレーニングできる。
一つのFlamingoモデルが、数ショットの学習で新しい最先端の技術を実現できることを実証する。
論文 参考訳(メタデータ) (2022-04-29T16:29:01Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。