論文の概要: Single-Modal Entropy based Active Learning for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2110.10906v1
- Date: Thu, 21 Oct 2021 05:38:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 13:51:49.069414
- Title: Single-Modal Entropy based Active Learning for Visual Question Answering
- Title(参考訳): 単モードエントロピーに基づく視覚質問応答のためのアクティブラーニング
- Authors: Dong-Jin Kim, Jae Won Cho, Jinsoo Choi, Yunjae Jung, In So Kweon
- Abstract要約: 視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
- 参考スコア(独自算出の注目度): 75.1682163844354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing a large-scale labeled dataset in the real world, especially for
high-level tasks (eg, Visual Question Answering), can be expensive and
time-consuming. In addition, with the ever-growing amounts of data and
architecture complexity, Active Learning has become an important aspect of
computer vision research. In this work, we address Active Learning in the
multi-modal setting of Visual Question Answering (VQA). In light of the
multi-modal inputs, image and question, we propose a novel method for effective
sample acquisition through the use of ad hoc single-modal branches for each
input to leverage its information. Our mutual information based sample
acquisition strategy Single-Modal Entropic Measure (SMEM) in addition to our
self-distillation technique enables the sample acquisitor to exploit all
present modalities and find the most informative samples. Our novel idea is
simple to implement, cost-efficient, and readily adaptable to other multi-modal
tasks. We confirm our findings on various VQA datasets through state-of-the-art
performance by comparing to existing Active Learning baselines.
- Abstract(参考訳): 大規模ラベル付きデータセットを現実世界、特に高レベルのタスク(例えば、Visual Question Answering)で構築することは、高価で時間を要する可能性がある。
さらに、データとアーキテクチャの複雑さがますます増大する中、アクティブラーニングはコンピュータビジョン研究の重要な側面となっている。
本稿では,視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングについて述べる。
マルチモーダルな入力,画像,質問を考慮し,各入力に対してアドホックな単一モーダル分岐を用いて,その情報を活用する,効果的なサンプル取得手法を提案する。
自己蒸留技術に加えて, 相互情報に基づくサンプル取得戦略smem (single-modal entropic measure) により, サンプル獲得者が現在あるすべてのモダリティを活用し, 最も有意義なサンプルを見つけることができる。
私たちの新しいアイデアは実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
我々は,既存のActive Learningベースラインと比較して,最先端のパフォーマンスを通じて,さまざまなVQAデータセットに関する知見を確認した。
関連論文リスト
- Multimodal Information Bottleneck for Deep Reinforcement Learning with Multiple Sensors [10.454194186065195]
強化学習はロボット制御タスクにおいて有望な成果を上げてきたが、情報の有効活用に苦慮している。
最近の研究は、複数の感覚入力から関節表現を抽出するために、再構成や相互情報に基づく補助的損失を構築している。
生のマルチモーダル観測について,学習した共同表現で情報を圧縮することが有用である。
論文 参考訳(メタデータ) (2024-10-23T04:32:37Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multi-View Class Incremental Learning [57.14644913531313]
マルチビュー学習(MVL)は、下流タスクのパフォーマンスを改善するためにデータセットの複数の視点から情報を統合することで大きな成功を収めている。
本稿では,複数視点クラスインクリメンタルラーニング(MVCIL)と呼ばれる新しいパラダイムについて考察する。
論文 参考訳(メタデータ) (2023-06-16T08:13:41Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Contrastive Learning with Cross-Modal Knowledge Mining for Multimodal
Human Activity Recognition [1.869225486385596]
複数のモダリティを活用することによって、より良い認識がもたらされるという仮説を探求する。
我々は、近年、人間活動認識の課題に対して、多くの対照的な自己監督的アプローチを拡張している。
マルチモーダルな自己教師型学習を実現するための,フレキシブルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-20T10:39:16Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Learning Modality-Specific Representations with Self-Supervised
Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。
我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。
提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-02-09T14:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。