論文の概要: HADA: A Graph-based Amalgamation Framework in Image-text Retrieval
- arxiv url: http://arxiv.org/abs/2301.04742v1
- Date: Wed, 11 Jan 2023 22:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:29:18.455572
- Title: HADA: A Graph-based Amalgamation Framework in Image-text Retrieval
- Title(参考訳): HADA: 画像テキスト検索のためのグラフベースのアマルガメーションフレームワーク
- Authors: Manh-Duy Nguyen, Binh T. Nguyen, Cathal Gurrin
- Abstract要約: 本稿では,事前学習したモデルを組み合わせることで,より優れた結果が得られる,コンパクトなグラフベースフレームワークHADAを提案する。
Flickr30kデータセットの評価指標から,HADAはベースライン性能を3.6%以上向上できることを示した。
- 参考スコア(独自算出の注目度): 2.3013879633693266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many models have been proposed for vision and language tasks, especially the
image-text retrieval task. All state-of-the-art (SOTA) models in this challenge
contained hundreds of millions of parameters. They also were pretrained on a
large external dataset that has been proven to make a big improvement in
overall performance. It is not easy to propose a new model with a novel
architecture and intensively train it on a massive dataset with many GPUs to
surpass many SOTA models, which are already available to use on the Internet.
In this paper, we proposed a compact graph-based framework, named HADA, which
can combine pretrained models to produce a better result, rather than building
from scratch. First, we created a graph structure in which the nodes were the
features extracted from the pretrained models and the edges connecting them.
The graph structure was employed to capture and fuse the information from every
pretrained model with each other. Then a graph neural network was applied to
update the connection between the nodes to get the representative embedding
vector for an image and text. Finally, we used the cosine similarity to match
images with their relevant texts and vice versa to ensure a low inference time.
Our experiments showed that, although HADA contained a tiny number of trainable
parameters, it could increase baseline performance by more than 3.6% in terms
of evaluation metrics in the Flickr30k dataset. Additionally, the proposed
model did not train on any external dataset and did not require many GPUs but
only 1 to train due to its small number of parameters. The source code is
available at https://github.com/m2man/HADA.
- Abstract(参考訳): 視覚や言語タスク、特に画像テキスト検索タスクには多くのモデルが提案されている。
この課題におけるすべての最先端(SOTA)モデルには数億のパラメータが含まれていた。
それらはまた、全体的なパフォーマンスを大きく改善することが証明された大きな外部データセットで事前トレーニングされた。
新しいアーキテクチャで新しいモデルを提案し、多くのgpuを備えた巨大なデータセットで集中的にトレーニングすることで、すでにインターネットで使用可能な多くのsataモデルを超えることは容易ではない。
本稿では,事前学習モデルを組み合わせることで,スクラッチから構築するよりも優れた結果が得られる,コンパクトなグラフベースフレームワークHADAを提案する。
まず,事前学習したモデルから抽出した特徴とそれらを接続するエッジをノードとするグラフ構造を作成した。
グラフ構造は、事前訓練されたすべてのモデルから情報を取り込み、融合するために使用される。
その後、グラフニューラルネットワークを適用してノード間の接続を更新し、画像とテキストの代表的な埋め込みベクトルを取得する。
最後に、コサイン類似性を用いて、画像と関連するテキストをマッチングし、その逆で低推論時間を確保する。
私たちの実験では、hadaはトレーニング可能なパラメータの数が少ないが、flickr30kデータセットの評価基準で、ベースラインのパフォーマンスが3.6%以上向上することを示しました。
さらに、提案モデルは外部データセットをトレーニングせず、パラメータが少ないため、多くのgpuを必要としないが、1つしかトレーニングできない。
ソースコードはhttps://github.com/m2man/hada。
関連論文リスト
- Multi-Modal Parameter-Efficient Fine-tuning via Graph Neural Network [2.12696199609647]
本稿では,グラフネットワークに基づくマルチモーダルパラメータ効率の微調整手法を提案する。
提案したモデルでは,OxfordPets,Flowers102,Food101の各データセットでそれぞれ4.45%,2.92%,0.23%の改善が達成されている。
論文 参考訳(メタデータ) (2024-08-01T05:24:20Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - LiteNeXt: A Novel Lightweight ConvMixer-based Model with Self-embedding Representation Parallel for Medical Image Segmentation [2.0901574458380403]
医用画像分割のための軽量だが効率的な新しいモデル LiteNeXt を提案する。
LiteNeXtは、少量のパラメータ (0.71M) とギガ浮動小数点演算 (0.42) でスクラッチから訓練されている。
論文 参考訳(メタデータ) (2024-04-04T01:59:19Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Efficient Large-Scale Language Model Training on GPU Clusters [19.00915720435389]
大規模な言語モデルは、様々なタスクに最先端の精度をもたらす。
メモリ容量は限られており、大きなモデルを単一のGPUに収めることは不可能である。
これらのモデルのトレーニングに必要な計算操作の数は、非現実的な長いトレーニング時間をもたらす可能性がある。
論文 参考訳(メタデータ) (2021-04-09T16:43:11Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。