論文の概要: Integrating Language Guidance into Vision-based Deep Metric Learning
- arxiv url: http://arxiv.org/abs/2203.08543v1
- Date: Wed, 16 Mar 2022 11:06:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 22:35:22.095049
- Title: Integrating Language Guidance into Vision-based Deep Metric Learning
- Title(参考訳): 視覚に基づくディープラーニングへの言語指導の統合
- Authors: Karsten Roth, Oriol Vinyals, Zeynep Akata
- Abstract要約: 埋め込み空間として意味的類似性を符号化した距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られるもの以外のクラスに転送可能であるべきである。
これにより、学習された埋め込み空間は不完全な意味的コンテキストを符号化し、クラス間の意味的関係を誤って表現する。
- 参考スコア(独自算出の注目度): 78.18860829585182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Metric Learning (DML) proposes to learn metric spaces which encode
semantic similarities as embedding space distances. These spaces should be
transferable to classes beyond those seen during training. Commonly, DML
methods task networks to solve contrastive ranking tasks defined over binary
class assignments. However, such approaches ignore higher-level semantic
relations between the actual classes. This causes learned embedding spaces to
encode incomplete semantic context and misrepresent the semantic relation
between classes, impacting the generalizability of the learned metric space. To
tackle this issue, we propose a language guidance objective for visual
similarity learning. Leveraging language embeddings of expert- and
pseudo-classnames, we contextualize and realign visual representation spaces
corresponding to meaningful language semantics for better semantic consistency.
Extensive experiments and ablations provide a strong motivation for our
proposed approach and show language guidance offering significant,
model-agnostic improvements for DML, achieving competitive and state-of-the-art
results on all benchmarks. Code available at
https://github.com/ExplainableML/LanguageGuidance_for_DML.
- Abstract(参考訳): Deep Metric Learning (DML)は、意味的類似性を埋め込み空間距離としてエンコードする距離空間を学習することを提案する。
これらの空間は、トレーニング中に見られる以上のクラスに転送可能であるべきである。
一般的に、DMLはタスクネットワークを使ってバイナリクラス割り当てで定義された対照的なランキングタスクを解決する。
しかし、このようなアプローチは実際のクラス間の高度な意味関係を無視する。
これにより、学習された埋め込み空間は不完全意味文脈を符号化し、クラス間の意味関係を誤って表現し、学習された計量空間の一般化可能性に影響を与える。
本稿では,視覚類似性学習のための言語指導目標を提案する。
専門家と疑似クラス名の言語埋め込みを活用することで、意味のある言語意味論に対応する視覚的表現空間を文脈化し、現実的に表現し、セマンティック一貫性を向上させる。
広範な実験とアブレーションは,提案手法の強い動機を与え,dmlに対する重要な,モデルに依存しない改善を提供し,すべてのベンチマークで競争力と最先端の結果を得る言語ガイダンスを示す。
コードはhttps://github.com/explainableml/languageguidance_for_dml。
関連論文リスト
- A General and Flexible Multi-concept Parsing Framework for Multilingual
Semantic Matching [62.53203836521321]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Discovering Low-rank Subspaces for Language-agnostic Multilingual
Representations [38.56175462620892]
ML-LM(ML-LM)は,ゼロショット言語間移動の顕著な能力を示す。
多言語埋め込み空間から言語固有の要素を投影する新しい視点を提案する。
本手法を適用すれば,ML-LMよりも一貫した改善が期待できることを示す。
論文 参考訳(メタデータ) (2024-01-11T09:54:11Z) - Leveraging Code to Improve In-context Learning for Semantic Parsing [53.15789586679881]
In-context Learning (ICL) は、その少数ショットの性質と一般化の改善により、意味解析に魅力的なアプローチである。
我々は,(1)DSLの代わりにPythonなどの汎用プログラミング言語を用いた意味解析におけるICLの有効性を向上し,(2)ドメイン記述を構造化したプロンプトを増強する。
論文 参考訳(メタデータ) (2023-11-16T02:50:06Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - LANDMARK: Language-guided Representation Enhancement Framework for Scene
Graph Generation [34.40862385518366]
シーングラフ生成(SGG)は複雑な視覚的特徴とデータセットの長い問題の両方に悩まされる高度なタスクである。
言語ビジョンの対話パターンから述語関連表現を学習するLANDMARK(LANguage-guided representationenhanceMent frAmewoRK)を提案する。
このフレームワークはモデルに依存しず、既存のSGGモデルの性能を一貫して改善する。
論文 参考訳(メタデータ) (2023-03-02T09:03:11Z) - GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual
Spoken Language Understanding [74.39024160277809]
この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。
具体的には、比較学習を採用し、二言語辞書を活用して、同じ発話の多言語ビューを構築する。
GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまくプルする。
論文 参考訳(メタデータ) (2022-04-18T13:56:58Z) - A Framework to Enhance Generalization of Deep Metric Learning methods
using General Discriminative Feature Learning and Class Adversarial Neural
Networks [1.5469452301122175]
メトリック学習アルゴリズムは、意味論的に類似したデータアイテムをまとめて、異種データを遠くに保持する距離関数を学習することを目的としている。
データから特徴を自動的に抽出し,入力空間から意味的な埋め込み空間への非線形変換を学習するDeep Metric Learning (DML)法が提案されている。
ゼロショット学習(ZSL)環境において,既存のDML手法の一般化能力を高める枠組みを提案する。
論文 参考訳(メタデータ) (2021-06-11T14:24:40Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。