論文の概要: AdS: Adapter-state Sharing Framework for Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2507.04508v1
- Date: Sun, 06 Jul 2025 18:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.217082
- Title: AdS: Adapter-state Sharing Framework for Multimodal Sarcasm Detection
- Title(参考訳): AdS:マルチモーダルサーカスム検出のための適応状態共有フレームワーク
- Authors: Soumyadeep Jana, Sahil Danayak, Sanasam Ranbir Singh,
- Abstract要約: ソーシャルメディア上のマルチモーダル画像テキストの皮肉は、リソース制約の下で意見マイニングを行う上での課題である。
本稿では,CLIP上に構築されたAdS(Adapter-State Sharing)を提案する。
2つの公開ベンチマーク実験により、AdSは既存のPEFTや完全な微調整アプローチに比べて、トレーニング可能なパラメータをはるかに少なくして、最先端の結果が得られることが示された。
- 参考スコア(独自算出の注目度): 1.515687944002438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing prevalence of multimodal image-text sarcasm on social media poses challenges for opinion mining, especially under resource constraints. Existing approaches rely on full fine-tuning of large pre-trained models, making them unsuitable for low-resource settings. While recent parameter-efficient fine-tuning (PEFT) methods offer promise, their off-the-shelf use underperforms on complex tasks like sarcasm detection. We propose AdS (Adapter-State Sharing), a lightweight framework built on CLIP that inserts adapters only in the upper layers and introduces a novel adapter-state sharing mechanism, where textual adapters guide visual ones. This design promotes efficient cross-modal learning while preserving low-level unimodal representations. Experiments on two public benchmarks demonstrate that AdS achieves state-of-the-art results using significantly fewer trainable parameters than existing PEFT and full fine-tuning approaches.
- Abstract(参考訳): ソーシャルメディア上でのマルチモーダルな画像テキストサルカズムの出現は、特に資源制約下での意見マイニングの課題を引き起こしている。
既存のアプローチは、大規模な事前訓練されたモデルの完全な微調整に依存しており、低リソース設定には適さない。
最近のパラメータ効率の微調整(PEFT)法は有望であるが、その既成品はサルカズム検出のような複雑なタスクにおいて過小評価される。
本稿では,CLIP上に構築されたAdS(Adapter-State Sharing)を提案する。
この設計は、低レベルの単調表現を保ちながら効率的なクロスモーダル学習を促進する。
2つの公開ベンチマーク実験により、AdSは既存のPEFTや完全な微調整アプローチに比べて、トレーニング可能なパラメータをはるかに少なくして、最先端の結果が得られることが示された。
関連論文リスト
- Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文 参考訳(メタデータ) (2025-05-26T10:49:44Z) - Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning [3.8984478257737734]
マルチモーダルモデルはクロスモーダルなタスクでは優れているが、数十億のパラメータのために計算コストが高い。
既存の手法は主にユニモーダル処理に重点を置いており、マルチモーダルタスクに必要な重要なモーダル融合を見越している。
我々は,従来のPEFTフレームワークを拡張して,マルチモーダルな専門家の組み合わせをサポートし,情報インタラクションを改善する専門家の混在を提案する。
論文 参考訳(メタデータ) (2025-03-26T15:26:18Z) - CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification [3.594351309950969]
CapS-Adapterは、イメージとキャプションの両方の機能を活用して、トレーニング不要シナリオにおける既存の最先端技術を超える革新的な方法である。
提案手法は,19個のベンチマークデータセットのゼロショット分類結果に優れており,従来の先行手法よりも2.19%精度が向上している。
論文 参考訳(メタデータ) (2024-05-26T14:50:40Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MultiWay-Adapater: Adapting large-scale multi-modal models for scalable
image-text retrieval [4.4173427917548524]
MultiWay-Adapter(MWA)は「アライメント・エンハンサー」を特徴とする新しいフレームワークである
このエンハンサーはモーダル間アライメントを深くし、最小のチューニング作業で高い転送性を実現する。
実験によると、従来の効率的なチューニングアプローチとは異なり、MWAはモデルの有効性を維持し、トレーニング時間を最大57%削減している。
論文 参考訳(メタデータ) (2023-09-04T10:48:29Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。