論文の概要: How to Design Sample and Computationally Efficient VQA Models
- arxiv url: http://arxiv.org/abs/2103.11537v1
- Date: Mon, 22 Mar 2021 01:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 07:26:21.247271
- Title: How to Design Sample and Computationally Efficient VQA Models
- Title(参考訳): サンプルと計算効率の良いVQAモデルの設計法
- Authors: Karan Samel, Zelin Zhao, Binghong Chen, Kuan Wang, Robin Luo, Le Song
- Abstract要約: テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
- 参考スコア(独自算出の注目度): 53.65668097847456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-modal reasoning tasks, such as visual question answering (VQA),
there have been many modeling and training paradigms tested. Previous models
propose different methods for the vision and language tasks, but which ones
perform the best while being sample and computationally efficient? Based on our
experiments, we find that representing the text as probabilistic programs and
images as object-level scene graphs best satisfy these desiderata. We extend
existing models to leverage these soft programs and scene graphs to train on
question answer pairs in an end-to-end manner. Empirical results demonstrate
that this differentiable end-to-end program executor is able to maintain
state-of-the-art accuracy while being sample and computationally efficient.
- Abstract(参考訳): 視覚的質問応答(VQA)のようなマルチモーダル推論タスクでは、多くのモデリングおよび訓練パラダイムがテストされている。
従来のモデルではビジョンと言語タスクの異なる手法を提案しているが、サンプルと計算効率の面ではどちらが最適か?
実験の結果、テキストを確率的プログラムとして表現し、画像をオブジェクトレベルのシーングラフとして表現することで、これらのデシデラタを満足できることがわかった。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
実験の結果,このプログラム実行者は,サンプル化と計算効率を両立しながら最先端の精度を維持することができることがわかった。
関連論文リスト
- In-context Prompt Learning for Test-time Vision Recognition with Frozen
Vision-language Model [17.9086654601105]
In-Context Prompt Learning (In-Context Prompt Learning, InCPL) を提案する。
InCPLは、インコンテキストプロンプトとしてラベル付けされた1つの例で新しいテストサンプルを関連付ける。
提案手法は,様々な下流データセットにまたがって,優れた性能を示し,最先端の結果を得た。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [81.08213203440634]
De-fineは複雑なタスクを単純なサブタスクに分解し、自動フィードバックによってプログラムを洗練するフレームワークである。
様々な視覚的タスクを対象とした実験により、De-fineはより正確で堅牢なプログラムを作成し、新しいベンチマークをフィールドに設定した。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement
Learning [77.34726150561087]
In-Context Learning (RetICL) のための検索式を提案する。
我々は、マルコフ決定プロセスとして逐次サンプル選択の問題を定義し、LSTMを用いてサンプルレトリバーモデルを設計し、近似ポリシー最適化を用いてそれを訓練する。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Partition Function Estimation: A Quantitative Study [25.782420501870295]
グラフィカルモデルの分割関数は、関心の中心的な量である。
見積もりの品質に関する様々な保証とともに、長年にわたっていくつかの技術が提案されてきた。
私たちの実験では、正確な技術は近似した技術と同じくらい効率的であるという驚くべき観察結果が得られました。
論文 参考訳(メタデータ) (2021-05-24T07:25:43Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Can We Learn Heuristics For Graphical Model Inference Using
Reinforcement Learning? [114.24881214319048]
我々は、強化学習を用いて、高次条件ランダム場(CRF)における推論を解くためのプログラム、すなわち、ポリシーを学習できることを示します。
本手法は,ポテンシャルの形式に制約を加えることなく,推論タスクを効率的に解く。
論文 参考訳(メタデータ) (2020-04-27T19:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。