Fugu-MT 論文翻訳(概要): Learning Relation Alignment for Calibrated Cross-modal Retrieval

論文の概要: Learning Relation Alignment for Calibrated Cross-modal Retrieval

arxiv url: http://arxiv.org/abs/2105.13868v2
Date: Tue, 1 Jun 2021 05:16:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-02 14:48:49.510438
Title: Learning Relation Alignment for Calibrated Cross-modal Retrieval
Title（参考訳）: 校正型クロスモーダル検索のための学習関係アライメント
Authors: Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang
Abstract要約: 言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。 ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
参考スコア（独自算出の注目度）: 52.760541762871505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite the achievements of large-scale multimodal pre-training approaches, cross-modal retrieval, e.g., image-text retrieval, remains a challenging task. To bridge the semantic gap between the two modalities, previous studies mainly focus on word-region alignment at the object level, lacking the matching between the linguistic relation among the words and the visual relation among the regions. The neglect of such relation consistency impairs the contextualized representation of image-text pairs and hinders the model performance and the interpretability. In this paper, we first propose a novel metric, Intra-modal Self-attention Distance (ISD), to quantify the relation consistency by measuring the semantic distance between linguistic and visual relations. In response, we present Inter-modal Alignment on Intra-modal Self-attentions (IAIS), a regularized training method to optimize the ISD and calibrate intra-modal self-attentions from the two modalities mutually via inter-modal alignment. The IAIS regularizer boosts the performance of prevailing models on Flickr30k and MS COCO datasets by a considerable margin, which demonstrates the superiority of our approach.
Abstract（参考訳）: 大規模なマルチモーダル事前学習アプローチの成果にもかかわらず、画像テキスト検索のようなクロスモーダル検索は難しい課題である。 2つのモダリティ間の意味的ギャップを埋めるために、これまでの研究では、主に対象レベルでの単語領域のアライメントに注目し、単語間の言語的関係と領域間の視覚的関係のマッチングを欠いている。このような関係一貫性の無視は、画像テキスト対の文脈的表現を損なうとともに、モデル性能と解釈可能性を妨げる。本稿では,まず,言語関係と視覚関係の間の意味的距離を計測し,関係一貫性を定量化する新しい指標であるisd(intra-modal self-attention distance)を提案する。そこで本研究では,isdを最適化し,両モダリティ間アライメントを介して相互にモダリティ内自己アライメントを校正するための正規化トレーニング手法であるiais(intra-modal self-attention)のモード間アライメントを提案する。 IAIS正規化器はFlickr30kおよびMS COCOデータセット上での一般的なモデルの性能を大幅に向上させ、我々のアプローチの優位性を示す。

関連論文リスト

Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文参考訳（メタデータ） (2025-09-26T14:39:13Z)
Multimodal Representation Learning Conditioned on Semantic Relations [10.999120598129126]
マルチモーダル表現学習はCLIPのような対照的なモデルで急速に進歩している。本稿では,自然言語関係記述に基づくマルチモーダル表現学習フレームワークであるRelation-Conditioned Multimodal Learning RCMLを提案する。提案手法では,意味的関係に関連付けられた多対多の学習ペアを構築し,関係誘導型クロスアテンション機構を導入する。
論文参考訳（メタデータ） (2025-08-24T19:36:18Z)
Structures Meet Semantics: Multimodal Fusion via Graph Contrastive Learning [8.187594234413568]
SSU(Structure-Semantic Unifier)と呼ばれる新しいフレームワークを提案する。 SSUは、モダリティ固有の構造情報と、拡張マルチモーダル表現のためのクロスモーダルセマンティックグラウンドを統合している。 SSUは一貫して最先端の性能を実現し、計算オーバーヘッドを大幅に削減する。
論文参考訳（メタデータ） (2025-08-24T13:44:54Z)
DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning [26.78273142765571]
本稿では, DALR(Dual-level Alignment Learning for Multimodal Sentence Representation)を提案する。クロスモーダルアライメントを実現するために、負のサンプルをソフトにし、補助的なタスクからのセマンティックな類似性を利用して、きめ細かいクロスモーダルアライメントを実現する一貫性学習モジュールを提案する。また、文関係は二項正負のラベルを超え、より複雑なランキング構造を示すと主張する。
論文参考訳（メタデータ） (2025-06-26T08:45:14Z)
Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシー=シュワルツの発散と相互情報を統合することで、分布型視覚言語アライメントを実現する新しいフレームワークを提案する。提案フレームワークでは,CSの分散と相互情報は多モーダルアライメントにおいて相補的な役割を担い,各モーダルのグローバル分布情報とペアのセマンティック関係の両方をキャプチャする。テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文参考訳（メタデータ） (2025-02-24T10:29:15Z)
Bridging the Modality Gap: Dimension Information Alignment and Sparse Spatial Constraint for Image-Text Matching [10.709744162565274]
本稿では2つの側面からモダリティギャップを橋渡しするDIASと呼ばれる新しい手法を提案する。この方法はFlickr30kとMSCOCOベンチマークで4.3%-10.2%のrSum改善を実現している。
論文参考訳（メタデータ） (2024-10-22T09:37:29Z)
Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文参考訳（メタデータ） (2024-04-28T08:44:28Z)
Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文参考訳（メタデータ） (2024-03-20T15:08:43Z)
Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文参考訳（メタデータ） (2023-05-25T15:26:13Z)
SCMM: Calibrating Cross-modal Representations for Text-Based Person Search [45.24784242117999]
テキストベースPerson Search (TBPS) は、クロスモーダル情報融合において重要な課題に直面している。 SCMM(Sew and Masked Modeling)は,2つの相補的なメカニズムによってこれらの融合課題に対処する新しいフレームワークである。
論文参考訳（メタデータ） (2023-04-05T07:50:16Z)
Cross-modal Attention Congruence Regularization for Vision-Language Relation Alignment [105.70884254216973]
我々は、"mug"から"grass"への指示言語注意を促すことで、関係アライメントを強制できることを示します。我々は、このソフトリレーションアライメントの概念が、視覚と言語注意の一致を強制することと等価であることを証明した。 UNITERにCACR(Cross-modal Attention Congruence Regularization)の損失を適用し,Winogroundに対する最先端アプローチを改善した。
論文参考訳（メタデータ） (2022-12-20T18:53:14Z)
Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文参考訳（メタデータ） (2022-10-09T02:24:35Z)
Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文参考訳（メタデータ） (2022-09-19T15:01:55Z)
Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文参考訳（メタデータ） (2021-09-14T02:08:23Z)
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration [48.01536973731182]
ROSITAと呼ばれる新しい視覚・言語事前学習手法を提案する。クロスモーダルとイントラモーダルの知識を統合されたシーングラフに統合し、セマンティックアライメントを強化する。 ROSITAは6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端メソッドを大幅に上回っている。
論文参考訳（メタデータ） (2021-08-16T13:16:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。