論文の概要: Algorithm Research of ELMo Word Embedding and Deep Learning Multimodal Transformer in Image Description
- arxiv url: http://arxiv.org/abs/2408.06357v1
- Date: Fri, 26 Jul 2024 01:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 03:57:10.745788
- Title: Algorithm Research of ELMo Word Embedding and Deep Learning Multimodal Transformer in Image Description
- Title(参考訳): 画像記述におけるELMoワード埋め込みと深層学習マルチモーダルトランスのアルゴリズム研究
- Authors: Xiaohan Cheng, Taiyuan Mei, Yun Zi, Qi Wang, Zijun Gao, Haowei Yang,
- Abstract要約: このプロジェクトでは、カテゴリの意味的類似度を使って複数のタグを分類する。
既存のゼロサンプル学習アルゴリズムのほとんどは、医療画像の深さ特性を直接入力として利用する。
本プロジェクトは,ELMo-MCTをメインタスクとし,原画像に関連する複数の視覚的特徴を取得することを目的としている。
- 参考スコア(独自算出の注目度): 6.596361762662328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero sample learning is an effective method for data deficiency. The existing embedded zero sample learning methods only use the known classes to construct the embedded space, so there is an overfitting of the known classes in the testing process. This project uses category semantic similarity measures to classify multiple tags. This enables it to incorporate unknown classes that have the same meaning as currently known classes into the vector space when it is built. At the same time, most of the existing zero sample learning algorithms directly use the depth features of medical images as input, and the feature extraction process does not consider semantic information. This project intends to take ELMo-MCT as the main task and obtain multiple visual features related to the original image through self-attention mechanism. In this paper, a large number of experiments are carried out on three zero-shot learning reference datasets, and the best harmonic average accuracy is obtained compared with the most advanced algorithms.
- Abstract(参考訳): ゼロサンプル学習はデータ不足に有効な方法である。
既存の組込みゼロサンプル学習手法は、既知クラスのみを使用して組込み空間を構築するため、テストプロセスに既知クラスの過度な適合がある。
このプロジェクトでは、カテゴリの意味的類似度を使って複数のタグを分類する。
これにより、現在知られているクラスと同じ意味を持つ未知のクラスを、構築時にベクトル空間に組み込むことができる。
同時に、既存のゼロサンプル学習アルゴリズムのほとんどは、医療画像の深さ特性を直接入力として使用しており、特徴抽出プロセスは意味情報を考慮していない。
本プロジェクトは,ELMo-MCTをメインタスクとし,自己認識機構を通じて,オリジナル画像に関連する複数の視覚的特徴を取得することを目的としている。
本稿では、3つのゼロショット学習基準データセットに対して多数の実験を行い、最も高度なアルゴリズムと比較して最適な調和平均精度を得る。
関連論文リスト
- Collaborative Feature-Logits Contrastive Learning for Open-Set Semi-Supervised Object Detection [75.02249869573994]
オープンセットのシナリオでは、ラベルなしデータセットには、イン・ディストリビューション(ID)クラスとアウト・オブ・ディストリビューション(OOD)クラスの両方が含まれている。
このような設定で半教師付き検出器を適用すると、OODクラスをIDクラスとして誤分類する可能性がある。
我々は、CFL-Detector(Collaborative Feature-Logits Detector)と呼ばれるシンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-11-20T02:57:35Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Mixture of Self-Supervised Learning [2.191505742658975]
自己教師型学習は、特定のタスクに適用される前にモデル上でトレーニングされるプレテキストタスクを使用することで機能する。
従来の研究では、プリテキストタスクとして1つのタイプの変換しか使用されていなかった。
これにより、複数のプリテキストタスクが使用されているかどうか、すべてのプリテキストタスクを組み合わせるためにゲーティングネットワークを使用するかどうか、という疑問が持ち上がる。
論文 参考訳(メタデータ) (2023-07-27T14:38:32Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Beyond Simple Meta-Learning: Multi-Purpose Models for Multi-Domain,
Active and Continual Few-Shot Learning [41.07029317930986]
低ラベル方式で動作するモデルの分散感応クラスを提案する。
最初の手法であるSimple CNAPSは階層的に正規化されたマハラノビス距離に基づく分類器を用いる。
我々はさらに、このアプローチをトランスダクティブ学習環境に拡張し、トランスダクティブCNAPSを提案する。
論文 参考訳(メタデータ) (2022-01-13T18:59:02Z) - Constrained Deep One-Class Feature Learning For Classifying Imbalanced
Medical Images [4.211466076086617]
データの不均衡問題に対処するために、一級分類が注目を集めている。
本稿では,コンパクトな特徴を学習するための新しい深層学習手法を提案する。
提案手法は,各クラスに関連するより関連性の高い特徴を学習し,多数派と少数派のサンプルを識別しやすくする。
論文 参考訳(メタデータ) (2021-11-20T15:25:24Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Improving Self-Organizing Maps with Unsupervised Feature Extraction [0.0]
自己組織化マップ(SOM)は脳にインスパイアされた神経モデルであり、教師なし学習に非常に有望である。
本稿では,生データの代わりに抽出した特徴を用いてSOM性能を向上させることを提案する。
我々は,SOM分類を+6.09%改善し,教師なし画像分類における最先端性能を得る。
論文 参考訳(メタデータ) (2020-09-04T13:19:24Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z) - Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for
Supporting Active Learning [0.0]
本研究は,Active Learning を用いて非ラベルのインスタンスで分類モデルを誘導する FASE-AL アルゴリズムを提案する。
このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。
論文 参考訳(メタデータ) (2020-01-30T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。