論文の概要: Visual Question Answering as a Multi-Task Problem
- arxiv url: http://arxiv.org/abs/2007.01780v1
- Date: Fri, 3 Jul 2020 16:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 04:18:16.312345
- Title: Visual Question Answering as a Multi-Task Problem
- Title(参考訳): マルチタスク問題としての視覚的質問応答
- Authors: Amelia Elizabeth Pollard and Jonathan L. Shapiro
- Abstract要約: 本稿では,視覚質問応答をマルチタスク問題とみなすべきであるという仮説を提示する。
一般的な2つのVisual Question Answeringデータセットをマルチタスク形式に再構成することでこれを実証する。
その結果,視覚質問応答に対するマルチタスクアプローチは,シングルタスクフォーマットに対して5~9%の性能向上をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering(VQA) is a highly complex problem set, relying on
many sub-problems to produce reasonable answers. In this paper, we present the
hypothesis that Visual Question Answering should be viewed as a multi-task
problem, and provide evidence to support this hypothesis. We demonstrate this
by reformatting two commonly used Visual Question Answering datasets, COCO-QA
and DAQUAR, into a multi-task format and train these reformatted datasets on
two baseline networks, with one designed specifically to eliminate other
possible causes for performance changes as a result of the reformatting. Though
the networks demonstrated in this paper do not achieve strongly competitive
results, we find that the multi-task approach to Visual Question Answering
results in increases in performance of 5-9% against the single-task formatting,
and that the networks reach convergence much faster than in the single-task
case. Finally we discuss possible reasons for the observed difference in
performance, and perform additional experiments which rule out causes not
associated with the learning of the dataset as a multi-task problem.
- Abstract(参考訳): VQA(Visual Question Answering)は、多くのサブプロブレムを頼りに、非常に複雑な問題である。
本稿では,視覚的質問応答をマルチタスク問題と見なすべきという仮説を提示し,この仮説を支持する証拠を提供する。
我々は、一般的な2つのビジュアル質問回答データセットであるCOCO-QAとDAQUARをマルチタスク形式に再構成し、2つのベースラインネットワーク上でこれらの修正データセットをトレーニングすることでこれを実証する。
本論文で示したネットワークは, 高い競合性は得られていないが, 視覚的質問応答に対するマルチタスクアプローチは, シングルタスクフォーマッティングに対する5~9%の性能向上をもたらし, ネットワークがシングルタスクの場合よりもはるかに高速に収束することを示す。
最後に、観測された性能差の原因について議論し、マルチタスク問題としてデータセットの学習に関連しない原因を除外する追加実験を行う。
関連論文リスト
- Retrieve, Summarize, Plan: Advancing Multi-hop Question Answering with an Iterative Approach [6.549143816134531]
二重機能要約器を備えたReSPと呼ばれる新しい反復RAG法を提案する。
マルチホップ質問応答HotpotQAと2WikiMultihopQAの実験結果から,本手法が最先端技術よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-18T02:19:00Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Multi-task Bias-Variance Trade-off Through Functional Constraints [102.64082402388192]
マルチタスク学習は、多様なタスクによく機能する関数の集合を取得することを目的としている。
本稿では,2つの極端な学習シナリオ,すなわちすべてのタスクに対する単一関数と,他のタスクを無視するタスク固有関数から直感を抽出する。
本稿では,集中関数に対するドメイン固有解を強制する制約付き学習定式化を導入する。
論文 参考訳(メタデータ) (2022-10-27T16:06:47Z) - Answer-Me: Multi-Task Open-Vocabulary Visual Question Answering [43.07139534653485]
タスク対応マルチタスクフレームワークAnswer-Meを提案する。
マルチタスクである視覚言語ジョイントモデルを事前訓練する。
その結果、最先端のパフォーマンス、ゼロショットの一般化、忘れることへの堅牢性、競争力のあるシングルタスクの結果が示された。
論文 参考訳(メタデータ) (2022-05-02T14:53:13Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z) - Multi-Relational Graph based Heterogeneous Multi-Task Learning in
Community Question Answering [28.91133131424694]
我々はHMTGIN(Heterogeneous Multi-Task Graph Isomorphism Network)と呼ばれるマルチリレーショナルグラフに基づくマルチタスク学習モデルを開発する。
各トレーニングフォワードパスでは、HMTGINは入力されたCQAフォーラムグラフをグラフ同型ネットワークの拡張によって埋め込み、接続をスキップする。
評価において、埋め込みは異なるタスク固有の出力層間で共有され、対応する予測を行う。
論文 参考訳(メタデータ) (2021-09-04T03:19:20Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z) - Reparameterizing Convolutions for Incremental Multi-Task Learning
without Task Interference [75.95287293847697]
マルチタスクモデルを開発する際の2つの一般的な課題は、しばしば文献で見過ごされる。
まず、モデルを本質的に漸進的に可能にし、以前に学んだことを忘れずに新しいタスクから情報を継続的に取り入れる(インクリメンタルラーニング)。
第二に、タスク間の有害な相互作用を排除し、マルチタスク設定(タスク干渉)においてシングルタスクのパフォーマンスを著しく低下させることが示されている。
論文 参考訳(メタデータ) (2020-07-24T14:44:46Z) - Understanding and Improving Information Transfer in Multi-Task Learning [14.43111978531182]
すべてのタスクに対して共有モジュール,各タスクに対して別個の出力モジュールを備えたアーキテクチャについて検討する。
タスクデータ間の不一致が負の転送(または性能の低下)を引き起こし、ポジティブな転送に十分な条件を提供することを示す。
理論的洞察から着想を得た結果,タスクの埋め込みレイヤの整合がマルチタスクトレーニングやトランスファー学習のパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-05-02T23:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。