論文の概要: Can Out-of-Domain data help to Learn Domain-Specific Prompts for Multimodal Misinformation Detection?
- arxiv url: http://arxiv.org/abs/2311.16496v4
- Date: Tue, 07 Jan 2025 03:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:47:12.964955
- Title: Can Out-of-Domain data help to Learn Domain-Specific Prompts for Multimodal Misinformation Detection?
- Title(参考訳): ドメイン外のデータは、マルチモーダル誤情報検出のためのドメイン特化プロンプトを学習するのに役立つか?
- Authors: Amartya Bhattacharya, Debarshi Brahma, Suraj Nagaje Mahadev, Anmol Asati, Vikas Verma, Soma Biswas,
- Abstract要約: ドメイン固有のPromptチューニングは、トレーニング中にドメイン外のデータを利用して、すべての望ましいドメインの偽ニュース検出を同時に改善する。
大規模なNewsCLIPpingとVERITEベンチマークの実験は、DPODがこの課題に対して最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 14.722270908687216
- License:
- Abstract: Spread of fake news using out-of-context images and captions has become widespread in this era of information overload. Since fake news can belong to different domains like politics, sports, etc. with their unique characteristics, inference on a test image-caption pair is contingent on how well the model has been trained on similar data. Since training individual models for each domain is not practical, we propose a novel framework termed DPOD (Domain-specific Prompt tuning using Out-of-domain data), which can exploit out-of-domain data during training to improve fake news detection of all desired domains simultaneously. First, to compute generalizable features, we modify the Vision-Language Model, CLIP to extract features that helps to align the representations of the images and corresponding captions of both the in-domain and out-of-domain data in a label-aware manner. Further, we propose a domain-specific prompt learning technique which leverages training samples of all the available domains based on the extent they can be useful to the desired domain. Extensive experiments on the large-scale NewsCLIPpings and VERITE benchmarks demonstrate that DPOD achieves state of-the-art performance for this challenging task. Code: https://github.com/scviab/DPOD.
- Abstract(参考訳): コンテンツ外画像とキャプションを用いた偽ニュースの拡散は、この情報過負荷の時代に広まりつつある。
フェイクニュースは、政治、スポーツなど、独自の特徴を持つ異なるドメインに属することができるため、テストイメージとカプセルのペアに対する推論は、モデルが類似したデータでどれだけうまくトレーニングされているかに焦点が当てられている。
ドメインごとの個別モデルをトレーニングすることは現実的ではないため、トレーニング中にドメイン外のデータを活用し、全てのドメインのフェイクニュースの検出を同時に改善できるDPOD(Domain-specific Prompt tuning using Out-of- domain data)という新しいフレームワークを提案する。
まず、一般化可能な特徴を計算するために、視覚言語モデルであるCLIPを修正し、画像の表現と、ドメイン内およびドメイン外データの対応するキャプションをラベル認識で整列させる特徴を抽出する。
さらに,本研究では,対象ドメインにどの程度役立つかに基づいて,利用可能なすべてのドメインのトレーニングサンプルを活用する,ドメイン固有のプロンプト学習手法を提案する。
大規模なNewsCLIPpingとVERITEベンチマークに関する大規模な実験は、DPODがこの課題に対して最先端のパフォーマンスを達成することを実証している。
コード:https://github.com/scviab/DPOD。
関連論文リスト
- A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - Prompt-based Visual Alignment for Zero-shot Policy Transfer [35.784936617675896]
強化学習におけるオーバーフィッティングは、強化学習への応用における主要な障害の1つとなっている。
ゼロショットポリシー転送のための画像における有害領域バイアスを軽減するために,プロンプトベースの視覚アライメント(PVA)を提案する。
CARLAシミュレータを用いて視覚に基づく自律運転タスクにおけるPVAの検証を行う。
論文 参考訳(メタデータ) (2024-06-05T13:26:30Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Phrase Grounding-based Style Transfer for Single-Domain Generalized
Object Detection [109.58348694132091]
単一ドメインの一般化オブジェクト検出は、複数の未確認対象ドメインに対するモデルの一般化性を高めることを目的としている。
これは、ターゲットのドメインデータをトレーニングに組み込むことなく、ドメインシフトに対処するモデルを必要とするため、実用的だが難しいタスクである。
そこで我々は,課題に対する新しい文節接頭辞に基づくスタイル伝達手法を提案する。
論文 参考訳(メタデータ) (2024-02-02T10:48:43Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Batch Normalization Embeddings for Deep Domain Generalization [50.51405390150066]
ドメインの一般化は、異なるドメインと見えないドメインで堅牢に実行されるように機械学習モデルをトレーニングすることを目的としている。
一般的な領域一般化ベンチマークにおいて,最先端技術よりも分類精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2020-11-25T12:02:57Z) - Domain Generalized Person Re-Identification via Cross-Domain Episodic
Learning [31.17248105464821]
本稿では、メタ学習戦略を進化させ、観測されたソースドメインラベル付きデータを活用するためのエピソード学習手法を提案する。
4つのベンチマークデータセットに対する実験により,最先端技術よりも提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2020-10-19T14:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。