Fugu-MT 論文翻訳(概要): Language Models as Zero-shot Visual Semantic Learners

論文の概要: Language Models as Zero-shot Visual Semantic Learners

arxiv url: http://arxiv.org/abs/2107.12021v1
Date: Mon, 26 Jul 2021 08:22:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-27 21:44:35.963567
Title: Language Models as Zero-shot Visual Semantic Learners
Title（参考訳）: ゼロショットビジュアルセマンティック学習者としての言語モデル
Authors: Yue Jiao, Jonathon Hare, Adam Pr\"ugel-Bennett
Abstract要約: 本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
参考スコア（独自算出の注目度）: 0.618778092044887
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual Semantic Embedding (VSE) models, which map images into a rich semantic embedding space, have been a milestone in object recognition and zero-shot learning. Current approaches to VSE heavily rely on static word em-bedding techniques. In this work, we propose a Visual Se-mantic Embedding Probe (VSEP) designed to probe the semantic information of contextualized word embeddings in visual semantic understanding tasks. We show that the knowledge encoded in transformer language models can be exploited for tasks requiring visual semantic understanding.The VSEP with contextual representations can distinguish word-level object representations in complicated scenes as a compositional zero-shot learner. We further introduce a zero-shot setting with VSEPs to evaluate a model's ability to associate a novel word with a novel visual category. We find that contextual representations in language mod-els outperform static word embeddings, when the compositional chain of object is short. We notice that current visual semantic embedding models lack a mutual exclusivity bias which limits their performance.
Abstract（参考訳）: イメージをリッチなセマンティック埋め込み空間にマッピングするビジュアルセマンティック埋め込み(VSE)モデルは、オブジェクト認識とゼロショット学習においてマイルストーンとなっている。 VSEへの現在のアプローチは静的な単語埋め込み技術に大きく依存している。本研究では,視覚的意味理解タスクにおける文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。トランスフォーマー言語モデルにエンコードされた知識は,視覚的意味理解を必要とするタスクに活用可能であることを示す。文脈表現を持つvsepは,複雑な場面における単語レベルのオブジェクト表現を,構成的ゼロショット学習者として区別することができる。さらに,vsepsを用いたゼロショット設定を導入し,新しい単語と新たな視覚カテゴリを関連付けるモデルの能力を評価する。言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れていた。現在のビジュアルセマンティクス埋め込みモデルには、パフォーマンスを制限する相互排他バイアスが欠けていることに気付きました。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文参考訳（メタデータ） (2025-03-05T18:44:48Z)
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images [5.529078451095096]
視覚シーンの意味を理解することはコンピュータビジョンの基本的な課題である。テキストと画像のフレームワークの最近の進歩は、自然のシーン統計を暗黙的に捉えるモデルにつながっている。提案するStableSemanticsは、224万件の人為的なプロンプト、処理された自然言語キャプション、200万以上の合成画像、そして個々の名詞のチャンクに対応する1000万のアテンションマップからなるデータセットである。
論文参考訳（メタデータ） (2024-06-19T17:59:40Z)
OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文参考訳（メタデータ） (2024-06-02T21:36:31Z)
Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文参考訳（メタデータ） (2024-02-13T02:46:45Z)
Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文参考訳（メタデータ） (2022-10-18T17:01:35Z)
I2DFormer: Learning Image to Document Attention for Zero-Shot Image Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文参考訳（メタデータ） (2022-09-21T12:18:31Z)
Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-28T14:27:38Z)
VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文参考訳（メタデータ） (2022-03-20T03:49:02Z)
Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文参考訳（メタデータ） (2021-11-13T19:54:15Z)
What Remains of Visual Semantic Embeddings [0.618778092044887]
標準のImageNetベンチマークにおける構造欠陥を回避するため、ZSLタスクにタイレッドイメージネットの分割を導入する。我々は,ZSLのための統合フレームワークを構築し,コントラスト学習を事前学習とし,セマンティックな情報漏洩を保証している。我々の研究は、意味推論が決定的なZSL設定上で視覚的セマンティック埋め込みモデルを評価するのに公平である。
論文参考訳（メタデータ） (2021-07-26T06:55:11Z)
COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文参考訳（メタデータ） (2020-07-14T19:04:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。