論文の概要: Dynamic Task and Weight Prioritization Curriculum Learning for
Multimodal Imagery
- arxiv url: http://arxiv.org/abs/2310.19109v2
- Date: Tue, 7 Nov 2023 14:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 18:56:47.963737
- Title: Dynamic Task and Weight Prioritization Curriculum Learning for
Multimodal Imagery
- Title(参考訳): マルチモーダル画像のための動的タスクと重量優先カリキュラム学習
- Authors: Huseyin Fuat Alsan, Taner Arsan
- Abstract要約: 本稿では,カリキュラム学習法を訓練したマルチモーダル深層学習モデルを用いたディザスタ後の分析について検討する。
カリキュラム学習は、ますます複雑なデータに基づいてディープラーニングモデルを訓練することにより、人間の教育における進歩的な学習シーケンスをエミュレートする。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores post-disaster analytics using multimodal deep learning
models trained with curriculum learning method. Studying post-disaster
analytics is important as it plays a crucial role in mitigating the impact of
disasters by providing timely and accurate insights into the extent of damage
and the allocation of resources. We propose a curriculum learning strategy to
enhance the performance of multimodal deep learning models. Curriculum learning
emulates the progressive learning sequence in human education by training deep
learning models on increasingly complex data. Our primary objective is to
develop a curriculum-trained multimodal deep learning model, with a particular
focus on visual question answering (VQA) capable of jointly processing image
and text data, in conjunction with semantic segmentation for disaster analytics
using the
FloodNet\footnote{https://github.com/BinaLab/FloodNet-Challenge-EARTHVISION2021}
dataset. To achieve this, U-Net model is used for semantic segmentation and
image encoding. A custom built text classifier is used for visual question
answering. Existing curriculum learning methods rely on manually defined
difficulty functions. We introduce a novel curriculum learning approach termed
Dynamic Task and Weight Prioritization (DATWEP), which leverages a
gradient-based method to automatically decide task difficulty during curriculum
learning training, thereby eliminating the need for explicit difficulty
computation. The integration of DATWEP into our multimodal model shows
improvement on VQA performance. Source code is available at
https://github.com/fualsan/DATWEP.
- Abstract(参考訳): 本稿では,カリキュラム学習法を訓練したマルチモーダル深層学習モデルを用いたディザスタ後の分析について検討する。
災害後の分析研究は、被害の程度と資源配分に関するタイムリーかつ正確な洞察を提供することによって、災害の影響を軽減する上で重要な役割を担っている。
本稿では,マルチモーダル深層学習モデルの性能向上のためのカリキュラム学習戦略を提案する。
カリキュラム学習は、ますます複雑なデータでディープラーニングモデルをトレーニングすることで、人間教育における進歩的な学習シーケンスをエミュレートする。
我々の主な目的は、FloodNet\footnote{https://github.com/BinaLab/FloodNet-Challenge-EARTHVISION2021}データセットを用いた災害解析のためのセマンティックセグメンテーションと合わせて、画像とテキストデータの共同処理が可能な視覚的質問応答(VQA)に焦点を当てたカリキュラム学習深層学習モデルを開発することである。
これを実現するために、U-Netモデルはセマンティックセグメンテーションと画像エンコーディングに使用される。
視覚的質問応答には独自のテキスト分類器が使用される。
既存のカリキュラム学習方法は、手動で定義された難易度関数に依存する。
DATWEP(Dynamic Task and Weight Prioritization)と呼ばれる新しいカリキュラム学習手法を導入し、勾配に基づく手法を用いてカリキュラム学習中にタスクの難易度を自動的に決定し、明示的な難易度計算の必要性を解消する。
DATWEPをマルチモーダルモデルに統合すると、VQAの性能が改善される。
ソースコードはhttps://github.com/fualsan/DATWEPで入手できる。
関連論文リスト
- Unlearnable Algorithms for In-context Learning [36.895152458323764]
本稿では,事前訓練された大規模言語モデルのタスク適応フェーズに対する効率的なアンラーニング手法に着目した。
タスク適応のための文脈内学習を行うLLMの能力は、タスク適応トレーニングデータの効率的なアンラーニングを可能にする。
本稿では,様々な推論コストを考慮に入れた非学習コストの包括的尺度を提案する。
論文 参考訳(メタデータ) (2024-02-01T16:43:04Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Statistical Measures For Defining Curriculum Scoring Function [5.328970912536596]
実画像データセット上での畳み込みニューラルネットワークとフルコネクテッドニューラルネットワークの性能向上を示します。
暗黙のカリキュラム順序からの洞察に動機づけられ,簡単なカリキュラム学習戦略を導入する。
また,動的カリキュラム学習アルゴリズムの性能について提案・検討する。
論文 参考訳(メタデータ) (2021-02-27T07:25:49Z) - Curriculum Learning: A Survey [65.31516318260759]
カリキュラム学習戦略は、機械学習のあらゆる分野で成功している。
我々は,様々な分類基準を考慮して,カリキュラム学習アプローチの分類を手作業で構築する。
集約型クラスタリングアルゴリズムを用いて,カリキュラム学習手法の階層木を構築する。
論文 参考訳(メタデータ) (2021-01-25T20:08:32Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Reducing Overlearning through Disentangled Representations by
Suppressing Unknown Tasks [8.517620051440005]
視覚的特徴を学習するための既存のディープラーニングアプローチは、手元にあるタスクに必要なものよりも、過剰に学習し、より多くの情報を抽出する傾向がある。
プライバシー保護の観点からは、入力された視覚情報はモデルから保護されない。
未知のタスクを全て抑制することで、モデルオーバーラーニングを減らすためのモデル非依存のソリューションを提案する。
論文 参考訳(メタデータ) (2020-05-20T17:31:44Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。