論文の概要: How to Design Sample and Computationally Efficient VQA Models
- arxiv url: http://arxiv.org/abs/2103.11537v1
- Date: Mon, 22 Mar 2021 01:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 07:26:21.247271
- Title: How to Design Sample and Computationally Efficient VQA Models
- Title(参考訳): サンプルと計算効率の良いVQAモデルの設計法
- Authors: Karan Samel, Zelin Zhao, Binghong Chen, Kuan Wang, Robin Luo, Le Song
- Abstract要約: テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
- 参考スコア(独自算出の注目度): 53.65668097847456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-modal reasoning tasks, such as visual question answering (VQA),
there have been many modeling and training paradigms tested. Previous models
propose different methods for the vision and language tasks, but which ones
perform the best while being sample and computationally efficient? Based on our
experiments, we find that representing the text as probabilistic programs and
images as object-level scene graphs best satisfy these desiderata. We extend
existing models to leverage these soft programs and scene graphs to train on
question answer pairs in an end-to-end manner. Empirical results demonstrate
that this differentiable end-to-end program executor is able to maintain
state-of-the-art accuracy while being sample and computationally efficient.
- Abstract(参考訳): 視覚的質問応答(VQA)のようなマルチモーダル推論タスクでは、多くのモデリングおよび訓練パラダイムがテストされている。
従来のモデルではビジョンと言語タスクの異なる手法を提案しているが、サンプルと計算効率の面ではどちらが最適か?
実験の結果、テキストを確率的プログラムとして表現し、画像をオブジェクトレベルのシーングラフとして表現することで、これらのデシデラタを満足できることがわかった。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
実験の結果,このプログラム実行者は,サンプル化と計算効率を両立しながら最先端の精度を維持することができることがわかった。
関連論文リスト
- Program Synthesis Benchmark for Visual Programming in XLogoOnline Environment [23.756311527978486]
このベンチマークは、XLogoOnline環境のミニレベルから85の現実世界タスクで構成されている。
モデルの性能を向上させるための微調整パイプラインを開発した。
微調整のLlama3-8BはGPT-4VとLlama3-70Bのモデルを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2024-06-17T08:48:02Z) - Patch-Prompt Aligned Bayesian Prompt Tuning for Vision-Language Models [48.77653835765705]
そこでは,まず下位分布から潜在ベクトルをサンプリングし,次に軽量な生成モデルを用いてラベル固有のプロンプトを階層的に生成する。
提案手法の有効性は,少数ショット画像認識,ベース・ツー・ニュージェネリゼーション,データセット転送学習,ドメインシフトの4つのタスクで評価する。
論文 参考訳(メタデータ) (2023-03-16T06:09:15Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Partition Function Estimation: A Quantitative Study [25.782420501870295]
グラフィカルモデルの分割関数は、関心の中心的な量である。
見積もりの品質に関する様々な保証とともに、長年にわたっていくつかの技術が提案されてきた。
私たちの実験では、正確な技術は近似した技術と同じくらい効率的であるという驚くべき観察結果が得られました。
論文 参考訳(メタデータ) (2021-05-24T07:25:43Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Can We Learn Heuristics For Graphical Model Inference Using
Reinforcement Learning? [114.24881214319048]
我々は、強化学習を用いて、高次条件ランダム場(CRF)における推論を解くためのプログラム、すなわち、ポリシーを学習できることを示します。
本手法は,ポテンシャルの形式に制約を加えることなく,推論タスクを効率的に解く。
論文 参考訳(メタデータ) (2020-04-27T19:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。