論文の概要: Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2210.00044v2
- Date: Sat, 20 Jan 2024 19:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 22:23:02.833081
- Title: Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering
- Title(参考訳): 連続学習における課題定式化 : 視覚的質問応答を事例として
- Authors: Mavina Nikandrou, Lu Yu, Alessandro Suglia, Ioannis Konstas, Verena
Rieser
- Abstract要約: 継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
- 参考スコア(独自算出の注目度): 58.82325933356066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning aims to train a model incrementally on a sequence of tasks
without forgetting previous knowledge. Although continual learning has been
widely studied in computer vision, its application to Vision+Language tasks is
not that straightforward, as settings can be parameterized in multiple ways
according to their input modalities. In this paper, we present a detailed study
of how different settings affect performance for Visual Question Answering. We
first propose three plausible task formulations and demonstrate their impact on
the performance of continual learning algorithms. We break down several factors
of task similarity, showing that performance and sensitivity to task order
highly depend on the shift of the output distribution. We also investigate the
potential of pretrained models and compare the robustness of transformer models
with different visual embeddings. Finally, we provide an analysis interpreting
model representations and their impact on forgetting. Our results highlight the
importance of stabilizing visual representations in deeper layers.
- Abstract(参考訳): 継続的学習は、前の知識を忘れずに、一連のタスクで段階的にモデルを訓練することを目的としている。
連続学習はコンピュータビジョンで広く研究されているが、Vision+Languageタスクへの応用は、入力モダリティに応じて複数の方法でパラメータ化できるため、それほど単純ではない。
本稿では,視覚質問応答の性能に異なる設定がどのように影響するかを詳細に検討する。
まず,3つのタスクの定式化を提案し,連続学習アルゴリズムの性能への影響を実証する。
タスクの類似性のいくつかの要因を分解し、タスクの順序に対するパフォーマンスと感度が出力分布のシフトに大きく依存することを示した。
また,事前学習モデルの可能性を調査し,トランスフォーマーモデルのロバスト性と異なる視覚埋め込みとの比較を行った。
最後に,モデル表現を解釈する解析と,その記憶への影響について述べる。
より深い層における視覚的表現の安定化の重要性を強調した。
関連論文リスト
- Modeling Output-Level Task Relatedness in Multi-Task Learning with Feedback Mechanism [7.479892725446205]
マルチタスク学習(MTL)は、異なるレベルで情報を共有することで複数のタスクを同時に学習するパラダイムである。
異なるタスクが相互に影響のある相関出力を生成する可能性があることを考慮し、後続情報をモデルに導入する。
我々は,MTLモデルにフィードバック機構を組み込むことで,あるタスクの出力が他のタスクの隠れ機能として機能する。
論文 参考訳(メタデータ) (2024-04-01T03:27:34Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Accelerating exploration and representation learning with offline
pre-training [52.6912479800592]
1つのオフラインデータセットから2つの異なるモデルを別々に学習することで、探索と表現の学習を改善することができることを示す。
ノイズコントラスト推定と補助報酬モデルを用いて状態表現を学習することで、挑戦的なNetHackベンチマークのサンプル効率を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-03-31T18:03:30Z) - Do Vision-and-Language Transformers Learn Grounded Predicate-Noun
Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。
我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。
本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:07:00Z) - Self-Supervised Visual Representation Learning Using Lightweight
Architectures [0.0]
自己教師付き学習では、マシンによってアノテーションが生成されるデータセットを使用して、プレテキストタスクを解決するためにモデルが訓練される。
我々は、画像データから特徴を抽出する最も顕著な前文タスクを批判的に検討する。
我々は、他の全てのパラメータを均一に保ちながら、様々な自己監督技術の性能について研究する。
論文 参考訳(メタデータ) (2021-10-21T14:13:10Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Analyzing Visual Representations in Embodied Navigation Tasks [45.35107294831313]
我々は、最近提案されたプロジェクション重み付き正準相関解析(PWCCA)を用いて、異なるタスクを実行することで、同じ環境で学習した視覚的表現の類似度を測定する。
次に、あるタスクで学習した視覚的表現が、別のタスクに効果的に転送できることを実証的に示す。
論文 参考訳(メタデータ) (2020-03-12T19:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。