Fugu-MT 論文翻訳(概要): Learning Visual Representations via Language-Guided Sampling

論文の概要: Learning Visual Representations via Language-Guided Sampling

arxiv url: http://arxiv.org/abs/2302.12248v2
Date: Wed, 29 Mar 2023 10:23:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-30 17:48:28.379599
Title: Learning Visual Representations via Language-Guided Sampling
Title（参考訳）: 言語誘導サンプリングによる視覚表現の学習
Authors: Mohamed El Banani, Karan Desai, Justin Johnson
Abstract要約: コントラスト学習には、意味論的に類似した画像ペアのサンプルに言語類似性を用いる。我々のアプローチは、言語類似性を用いたビューペアのサンプリングにより、画像に基づくコントラスト学習から分岐する。言語指導学習は,画像ベースや画像テキスト表現学習よりも優れた特徴を持つことを示す。
参考スコア（独自算出の注目度）: 25.117909306792324
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although an object may appear in numerous contexts, we often describe it in a limited number of ways. Language allows us to abstract away visual variation to represent and communicate concepts. Building on this intuition, we propose an alternative approach to visual representation learning: using language similarity to sample semantically similar image pairs for contrastive learning. Our approach diverges from image-based contrastive learning by sampling view pairs using language similarity instead of hand-crafted augmentations or learned clusters. Our approach also differs from image-text contrastive learning by relying on pre-trained language models to guide the learning rather than directly minimizing a cross-modal loss. Through a series of experiments, we show that language-guided learning yields better features than image-based and image-text representation learning approaches.
Abstract（参考訳）: オブジェクトは多くのコンテキストで現れるかもしれないが、我々はそれを限られた方法で記述することが多い。言語は、概念を表現し、伝達するために視覚的なバリエーションを抽象化することができる。この直観に基づいて,視覚的表現学習の代替手法を提案する。言語類似性と意味的に類似した画像ペアを対比学習に利用する。本手法は,手作業による拡張や学習クラスタではなく,言語類似性を用いてビューペアをサンプリングすることで,画像に基づくコントラスト学習から分岐する。また,本手法は,学習のガイドとして事前学習された言語モデルに頼ることで,画像テキストのコントラスト学習と異なる。一連の実験を通して,言語誘導学習は画像ベースや画像テキスト表現学習よりも優れた特徴をもたらすことを示す。

関連論文リスト

A Survey on Self-supervised Contrastive Learning for Multimodal Text-Image Analysis [0.3495246564946556]
近年のテキストイメージモデルにおけるコントラスト学習のアプローチの概要について述べる。第3に、プロセスで使用されるテクニックの最新の進歩を紹介し、議論する。テキスト画像に基づく自己教師付きコントラスト学習モデルの最近の技術応用について論じる。
論文参考訳（メタデータ） (2025-03-14T05:43:47Z)
Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文参考訳（メタデータ） (2024-12-02T01:19:21Z)
Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。双曲型視覚言語モデルのための構成的包摂学習を提案する。数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T14:12:50Z)
TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models [14.019349267520541]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文参考訳（メタデータ） (2023-09-01T20:59:46Z)
Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文参考訳（メタデータ） (2023-07-28T10:26:28Z)
Style-Aware Contrastive Learning for Multi-Style Image Captioning [36.1319565907582]
我々は、スタイルに関連のある潜在的な視覚コンテンツをマイニングするために、コントラスト学習を備えたスタイル認識型ビジュアルエンコーダを提案する。また、画像、スタイル、キャプションが一致したかどうかを識別するために、スタイル対応のコントラスト目標を提案する。実験により,本手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2023-01-26T19:21:39Z)
Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文参考訳（メタデータ） (2023-01-09T13:54:11Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文参考訳（メタデータ） (2021-11-13T19:54:15Z)
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。 ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-07-16T00:19:22Z)
Probing Contextual Language Models for Common Ground with Visual Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文参考訳（メタデータ） (2020-05-01T21:28:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。