論文の概要: SPANER: Shared Prompt Aligner for Multimodal Semantic Representation
- arxiv url: http://arxiv.org/abs/2508.13387v1
- Date: Mon, 18 Aug 2025 22:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.735151
- Title: SPANER: Shared Prompt Aligner for Multimodal Semantic Representation
- Title(参考訳): SPANER:マルチモーダルセマンティック表現のための共有プロンプトアグナー
- Authors: Thye Shan Ng, Caren Soyeon Han, Eun-Jung Holden,
- Abstract要約: Shared Prompt AligNER (SPANER) は、様々なモダリティからの入力を統一的なセマンティック空間に埋め込むために設計された、モダリティに依存しないPEFTフレームワークである。
SPANERは、概念的なアンカーとして機能する共有プロンプト機構を採用しており、意味的に関連するインスタンスがモダリティに関係なく空間的に収束することを可能にする。
本結果は,適応重みを調整するのではなく,組込み構造を整列させることが,スケーラブルなマルチモーダル学習において重要であることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal Parameter-Efficient Fine-Tuning (PEFT) have significantly improved performance on downstream tasks such as few-shot retrieval. However, most existing approaches focus on task-specific gains while neglecting the structure of the multimodal embedding space. As a result, modality-specific representations often remain isolated, limiting cross-modal generalisation. In this work, we introduce Shared Prompt AligNER (SPANER), a modality-agnostic PEFT framework designed to embed inputs from diverse modalities into a unified semantic space. At its core, SPANER employs a shared prompt mechanism that acts as a conceptual anchor, enabling semantically related instances to converge spatially regardless of modality. This shared prompt design is inherently extensible, supporting the seamless integration of additional modalities, such as audio, without altering the core architecture. Through comprehensive experiments across vision-language and audio-visual benchmarks, SPANER demonstrates competitive few-shot retrieval performance while preserving high semantic coherence in the learned embedding space. Our results highlight the importance of aligning embedding structures, rather than merely tuning adapter weights, for scalable multimodal learning.
- Abstract(参考訳): マルチモーダルパラメーター効率ファインチューニング(PEFT)の最近の進歩は、少数ショット検索などの下流タスクの性能を著しく向上させた。
しかし、既存のほとんどのアプローチは、マルチモーダル埋め込み空間の構造を無視しながらタスク固有のゲインに焦点を当てている。
結果として、モダリティ固有の表現はしばしば孤立し、クロスモーダルな一般化が制限される。
本研究では,多種多様なモーダルからの入力を統一意味空間に埋め込むために設計された,モダリティに依存しないPEFTフレームワークであるShared Prompt AligNER(SPANER)を紹介する。
中心となるSPANERは、概念的アンカーとして機能する共有プロンプト機構を採用しており、意味論的に関連するインスタンスがモダリティに関係なく空間的に収束することを可能にする。
この共有プロンプト設計は本質的に拡張可能であり、コアアーキテクチャを変更することなく、オーディオのような追加のモダリティのシームレスな統合をサポートする。
SPANERは、視覚言語および音声視覚ベンチマークの総合的な実験を通じて、学習された埋め込み空間における高いセマンティックコヒーレンスを維持しながら、競合する数ショット検索性能を示す。
本結果は,適応重みを調整するのではなく,組込み構造を整列させることが,スケーラブルなマルチモーダル学習において重要であることを示す。
関連論文リスト
- A-MESS: Anchor based Multimodal Embedding with Semantic Synchronization for Multimodal Intent Recognition [3.4568313440884837]
セマンティックシンクロナイゼーション(A-MESS)フレームワークを用いたアンカーベースのマルチモーダル埋め込みを提案する。
まず、アンカーベースの埋め込み融合機構を用いてマルチモーダル入力を統合するアンカーベースのマルチモーダル埋め込み(A-ME)モジュールを設計する。
我々は,マルチモーダル表現とラベル記述を同期させることにより,プロセスの最適化を行う,Triplet Contrastive Learning Pipelineを用いたセマンティックシンクロナイゼーション(SS)戦略を開発した。
論文 参考訳(メタデータ) (2025-03-25T09:09:30Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Preserving Modality Structure Improves Multi-Modal Learning [64.10085674834252]
大規模マルチモーダルデータセットによる自己教師付き学習は、人間のアノテーションに頼ることなく、意味的に意味のある埋め込みを学ぶことができる。
これらの手法は、モダリティ固有の埋め込みに存在する意味構造を無視して、ドメイン外のデータをうまく一般化するのに苦労することが多い。
共同埋め込み空間におけるモダリティ特異的な関係を保ち, 一般化性を向上させるためのセマンティック・構造保存整合性アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T20:46:48Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。