論文の概要: Transductive Visual Verb Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2012.10821v1
- Date: Sun, 20 Dec 2020 01:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 04:50:10.470876
- Title: Transductive Visual Verb Sense Disambiguation
- Title(参考訳): Transductive Visual Verb Sense Disambiguation
- Authors: Sebastiano Vascon, Sinem Aslan, Gianluca Bigaglia, Lorenzo Giudice,
Marcello Pelillo
- Abstract要約: 本研究では,それと対になる画像の内容を考慮して,文中の動詞の正しい意味を見出すことを目的としている。
このタスクで唯一利用可能なデータセットである、最近公開されたデータセットVerSeで実験が行われた。
結果は、意味ごとにわずかのラベル付きサンプルを使用しながら、現在の最新状況を大きなマージンで上回ります。
- 参考スコア(独自算出の注目度): 14.29672056647336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verb Sense Disambiguation is a well-known task in NLP, the aim is to find the
correct sense of a verb in a sentence. Recently, this problem has been extended
in a multimodal scenario, by exploiting both textual and visual features of
ambiguous verbs leading to a new problem, the Visual Verb Sense Disambiguation
(VVSD). Here, the sense of a verb is assigned considering the content of an
image paired with it rather than a sentence in which the verb appears.
Annotating a dataset for this task is more complex than textual disambiguation,
because assigning the correct sense to a pair of $<$image, verb$>$ requires
both non-trivial linguistic and visual skills. In this work, differently from
the literature, the VVSD task will be performed in a transductive
semi-supervised learning (SSL) setting, in which only a small amount of labeled
information is required, reducing tremendously the need for annotated data. The
disambiguation process is based on a graph-based label propagation method which
takes into account mono or multimodal representations for $<$image, verb$>$
pairs. Experiments have been carried out on the recently published dataset
VerSe, the only available dataset for this task. The achieved results
outperform the current state-of-the-art by a large margin while using only a
small fraction of labeled samples per sense. Code available:
https://github.com/GiBg1aN/TVVSD.
- Abstract(参考訳): Verb Sense DisambiguationはNLPでよく知られたタスクであり、文中の動詞の正しい感覚を見つけることを目的としている。
近年,不明瞭な動詞のテキスト的特徴と視覚的特徴の両面を活かして,新たな問題となるVisual Verb Sense Disambiguation (VVSD) が提案されている。
ここでは、動詞が現れる文ではなく、それと対になる画像の内容を考慮して動詞の感覚を割り当てる。
なぜなら、<$image, verb$>$のペアに正しい意味を割り当てるには、非自明な言語スキルと視覚スキルの両方が必要であるからです。
本研究は、文献と異なり、VVSDタスクは、少量のラベル付き情報のみを必要とするトランスダクティブ半教師付き学習(SSL)設定で実行され、注釈付きデータの必要性を大幅に低減する。
曖昧化のプロセスは、$<$image, verb$>$ pairsのmonoまたはmultimodal表現を考慮に入れるグラフベースのラベル伝播法に基づいている。
このタスクで唯一利用可能なデータセットである、最近公開されたデータセットVerSeで実験が行われた。
得られた結果は、各感覚ごとにわずかにラベル付けされたサンプルを使用しながら、現在の最先端を大きなマージンで上回る。
コードはhttps://github.com/GiBg1aN/TVVSD。
関連論文リスト
- HKUST at SemEval-2023 Task 1: Visual Word Sense Disambiguation with
Context Augmentation and Visual Assistance [5.5532783549057845]
本稿では,事前学習したビジョンランゲージモデルを最大限活用するマルチモーダル検索フレームワークを提案する。
当社のシステムは,SemEval-2023 Task 1では最も競争力のある成果を上げていませんが,チームの半分近くを破ることが可能です。
論文 参考訳(メタデータ) (2023-11-30T06:23:15Z) - Large Language Models and Multimodal Retrieval for Visual Word Sense
Disambiguation [1.8591405259852054]
Visual Word Sense Disambiguation (VWSD)は、候補者の中から画像を取得することを目的とした、新しい課題である。
本稿では、様々なアプローチを適用することで、この興味深い課題を明らかにするための大きな一歩を踏み出す。
論文 参考訳(メタデータ) (2023-10-21T14:35:42Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Fine-Grained Visual Entailment [51.66881737644983]
そこで本稿では,テキストから画像への微粒な知識要素の論理的関係を予測することを目的として,このタスクの拡張を提案する。
従来の研究とは異なり、本手法は本質的に説明可能であり、異なるレベルの粒度で論理的予測を行う。
本手法は,手動でアノテートした知識要素のデータセットを用いて評価し,この課題に対して68.18%の精度を達成できることを示す。
論文 参考訳(メタデータ) (2022-03-29T16:09:38Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。