論文の概要: DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning
- arxiv url: http://arxiv.org/abs/2506.21096v1
- Date: Thu, 26 Jun 2025 08:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.026993
- Title: DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning
- Title(参考訳): DALR:マルチモーダル文表現学習のためのデュアルレベルアライメント学習
- Authors: Kang He, Yuzhe Ding. Haining Wang, Fei Li, Chong Teng, Donghong Ji,
- Abstract要約: 本稿では, DALR(Dual-level Alignment Learning for Multimodal Sentence Representation)を提案する。
クロスモーダルアライメントを実現するために、負のサンプルをソフトにし、補助的なタスクからのセマンティックな類似性を利用して、きめ細かいクロスモーダルアライメントを実現する一貫性学習モジュールを提案する。
また、文関係は二項正負のラベルを超え、より複雑なランキング構造を示すと主張する。
- 参考スコア(独自算出の注目度): 22.500234796360754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous multimodal sentence representation learning methods have achieved impressive performance. However, most approaches focus on aligning images and text at a coarse level, facing two critical challenges:cross-modal misalignment bias and intra-modal semantic divergence, which significantly degrade sentence representation quality. To address these challenges, we propose DALR (Dual-level Alignment Learning for Multimodal Sentence Representation). For cross-modal alignment, we propose a consistency learning module that softens negative samples and utilizes semantic similarity from an auxiliary task to achieve fine-grained cross-modal alignment. Additionally, we contend that sentence relationships go beyond binary positive-negative labels, exhibiting a more intricate ranking structure. To better capture these relationships and enhance representation quality, we integrate ranking distillation with global intra-modal alignment learning. Comprehensive experiments on semantic textual similarity (STS) and transfer (TR) tasks validate the effectiveness of our approach, consistently demonstrating its superiority over state-of-the-art baselines.
- Abstract(参考訳): 従来の多モーダルな文表現学習法は印象的な性能を達成した。
しかし、ほとんどのアプローチは、画像とテキストを粗いレベルで整列させることに重点を置いており、クロスモーダルなミスアライメントバイアスとモーダルなセマンティックなばらつきという2つの重要な課題に直面している。
これらの課題に対処するため,DALR(Dual-level Alignment Learning for Multimodal Sentence Representation)を提案する。
クロスモーダルアライメントを実現するために、負のサンプルをソフトにし、補助的なタスクからのセマンティックな類似性を利用して、きめ細かいクロスモーダルアライメントを実現する一貫性学習モジュールを提案する。
さらに、文関係は二項正負のラベルを超え、より複雑なランキング構造を示すと主張する。
これらの関係をよりよく把握し、表現品質を高めるために、グローバルなモーダル内アライメント学習とランキング蒸留を統合した。
意味的テキスト類似性(STS)と伝達(TR)タスクに関する総合的な実験は、我々のアプローチの有効性を検証し、最先端のベースラインよりもその優位性を一貫して示している。
関連論文リスト
- Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - Boundary-Driven Table-Filling with Cross-Granularity Contrastive Learning for Aspect Sentiment Triplet Extraction [8.011606196420757]
Aspect Sentiment Triplet extract taskは、きめ細かい感情分析において最も顕著なサブタスクの1つである。
既存のほとんどのアプローチでは、エンドツーエンドで2次元テーブルフィリングプロセスとしてフレームトリプレット抽出を行っている。
文レベル表現と単語レベル表現のセマンティック一貫性を高めるために,BTF-CCLを用いた境界駆動型テーブル充填を提案する。
論文 参考訳(メタデータ) (2025-02-04T02:23:45Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。