論文の概要: Understanding Synonymous Referring Expressions via Contrastive Features
- arxiv url: http://arxiv.org/abs/2104.10156v1
- Date: Tue, 20 Apr 2021 17:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:37:44.805768
- Title: Understanding Synonymous Referring Expressions via Contrastive Features
- Title(参考訳): コントラスト特徴を用いた同義語参照表現の理解
- Authors: Yi-Wen Chen, Yi-Hsuan Tsai, Ming-Hsuan Yang
- Abstract要約: 画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 105.36814858748285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression comprehension aims to localize objects identified by
natural language descriptions. This is a challenging task as it requires
understanding of both visual and language domains. One nature is that each
object can be described by synonymous sentences with paraphrases, and such
varieties in languages have critical impact on learning a comprehension model.
While prior work usually treats each sentence and attends it to an object
separately, we focus on learning a referring expression comprehension model
that considers the property in synonymous sentences. To this end, we develop an
end-to-end trainable framework to learn contrastive features on the image and
object instance levels, where features extracted from synonymous sentences to
describe the same object should be closer to each other after mapping to the
visual domain. We conduct extensive experiments to evaluate the proposed
algorithm on several benchmark datasets, and demonstrate that our method
performs favorably against the state-of-the-art approaches. Furthermore, since
the varieties in expressions become larger across datasets when they describe
objects in different ways, we present the cross-dataset and transfer learning
settings to validate the ability of our learned transferable features.
- Abstract(参考訳): reference expression comprehensionは、自然言語記述によって識別されるオブジェクトをローカライズすることを目的としている。
ビジュアルドメインと言語ドメインの両方を理解する必要があるため、これは難しいタスクです。
一つの性質は、各対象がパラフレーズの同義語で記述できることであり、言語におけるそのような多様体は理解モデルを学ぶことに決定的な影響を及ぼす。
先行研究は通常,各文を別々に扱うが,同義語の性質を考慮した参照表現理解モデルを学習することに集中する。
この目的のために、画像とオブジェクトのインスタンスレベルのコントラスト的特徴を学習するためのエンドツーエンドのトレーニング可能なフレームワークを開発し、同じオブジェクトを記述する同義語文から抽出された特徴は、視覚領域にマッピングした後、互いに近接するべきである。
提案したアルゴリズムを複数のベンチマークデータセット上で評価し,提案手法が最先端手法に対して良好に動作することを示す。
さらに、異なる方法でオブジェクトを記述する際に、表現の多様性がデータセット全体にわたって大きくなるため、学習可能な特徴の能力を検証するために、クロスデータセットおよび転送学習設定を示す。
関連論文リスト
- Investigating Idiomaticity in Word Representations [9.208145117062339]
我々は2つの言語(英語とポルトガル語)における様々な水準の慣用性を持つ名詞に焦点をあてる。
そこで本研究では,各名詞の音韻性判定を含む最小対のデータセットについて,タイプレベルとトークンレベルの両方で示す。
AffinityとScaled similarityの詳細なメトリクスセットを定義し、モデルが慣用性の変化につながる可能性のある摂動に対してどれほど敏感であるかを判断する。
論文 参考訳(メタデータ) (2024-11-04T21:05:01Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Context-LGM: Leveraging Object-Context Relation for Context-Aware Object
Recognition [48.5398871460388]
本稿では,オブジェクト・コンテキスト関係を階層的にモデル化する新しいコンテキスト潜在生成モデル(Contextual Latent Generative Model,Context-LGM)を提案する。
文脈的特徴を推定するために、変数自動エンコーダ(VAE)の目的関数を再構成し、対象物に対する後続条件付き分布として文脈的特徴を学習する。
本手法の有効性は,2つのコンテキスト認識オブジェクト認識タスクにおける最先端性能によって検証される。
論文 参考訳(メタデータ) (2021-10-08T11:31:58Z) - Contrastive Video-Language Segmentation [41.1635597261304]
本稿では,ビデオコンテンツ中の自然言語文によって参照される特定のオブジェクトをセグメント化する問題に焦点をあてる。
本研究では, 視覚的・言語的モダリティを, 対照的な学習目的を通した明示的な方法で解釈することを提案する。
論文 参考訳(メタデータ) (2021-09-29T01:40:58Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。