論文の概要: Integrating Language Guidance into Vision-based Deep Metric Learning
- arxiv url: http://arxiv.org/abs/2203.08543v1
- Date: Wed, 16 Mar 2022 11:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 22:35:22.095049
- Title: Integrating Language Guidance into Vision-based Deep Metric Learning
- Title(参考訳): 視覚に基づくディープラーニングへの言語指導の統合
- Authors: Karsten Roth, Oriol Vinyals, Zeynep Akata
- Abstract要約: 埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
- 参考スコア(独自算出の注目度): 78.18860829585182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Metric Learning (DML) proposes to learn metric spaces which encode
semantic similarities as embedding space distances. These spaces should be
transferable to classes beyond those seen during training. Commonly, DML
methods task networks to solve contrastive ranking tasks defined over binary
class assignments. However, such approaches ignore higher-level semantic
relations between the actual classes. This causes learned embedding spaces to
encode incomplete semantic context and misrepresent the semantic relation
between classes, impacting the generalizability of the learned metric space. To
tackle this issue, we propose a language guidance objective for visual
similarity learning. Leveraging language embeddings of expert- and
pseudo-classnames, we contextualize and realign visual representation spaces
corresponding to meaningful language semantics for better semantic consistency.
Extensive experiments and ablations provide a strong motivation for our
proposed approach and show language guidance offering significant,
model-agnostic improvements for DML, achieving competitive and state-of-the-art
results on all benchmarks. Code available at
https://github.com/ExplainableML/LanguageGuidance_for_DML.
- Abstract(参考訳): Deep Metric Learning (DML)は、意味的類似性を埋め込み空間距離としてエンコードする距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られる以上のクラスに転送可能であるべきである。
一般的に、DMLはタスクネットワークを使ってバイナリクラス割り当てで定義された対照的なランキングタスクを解決する。
しかし、このようなアプローチは実際のクラス間の高度な意味関係を無視する。
これにより、学習された埋め込み空間は不完全意味文脈を符号化し、クラス間の意味関係を誤って表現し、学習された計量空間の一般化可能性に影響を与える。
本稿では,視覚類似性学習のための言語指導目標を提案する。
専門家と疑似クラス名の言語埋め込みを活用することで、意味のある言語意味論に対応する視覚的表現空間を文脈化し、現実的に表現し、セマンティック一貫性を向上させる。
広範な実験とアブレーションは,提案手法の強い動機を与え,dmlに対する重要な,モデルに依存しない改善を提供し,すべてのベンチマークで競争力と最先端の結果を得る言語ガイダンスを示す。
コードはhttps://github.com/explainableml/languageguidance_for_dml。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Mitigating Semantic Leakage in Cross-lingual Embeddings via Orthogonality Constraint [6.880579537300643]
現在の不整合表現学習法はセマンティックリークに悩まされている。
我々は,新しい学習目標orthogonAlity Constraint LEarning(ORACLE)を提案する。
ORACLEはクラス内のクラスタリングとクラス間の分離という2つのコンポーネントの上に構築されている。
ORACLE目標を用いたトレーニングは,意味的漏洩を効果的に低減し,埋め込み空間内の意味的アライメントを高めることを実証する。
論文 参考訳(メタデータ) (2024-09-24T02:01:52Z) - MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。
我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。
以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文 参考訳(メタデータ) (2024-06-11T16:26:18Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Improving Deep Representation Learning via Auxiliary Learnable Target Coding [69.79343510578877]
本稿では,深層表現学習の補助的正規化として,新たな学習対象符号化を提案する。
具体的には、より差別的な表現を促進するために、マージンベースの三重項損失と、提案した目標符号上の相関整合損失を設計する。
論文 参考訳(メタデータ) (2023-05-30T01:38:54Z) - GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual
Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。
具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。
GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文 参考訳(メタデータ) (2022-04-18T13:56:58Z) - A Framework to Enhance Generalization of Deep Metric Learning methods
using General Discriminative Feature Learning and Class Adversarial Neural
Networks [1.5469452301122175]
メトリック学習アルゴリズムは、意味論的に類似したデータアイテムをまとめて、異種データを遠くに保持する距離関数を学習することを目的としている。
データから特徴を自動的に抽出し,入力空間から意味的な埋め込み空間への非線形変換を学習するDeep Metric Learning (DML)法が提案されている。
ゼロショット学習(ZSL)環境において,既存のDML手法の一般化能力を高める枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-11T14:24:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。