論文の概要: Vision Meets Definitions: Unsupervised Visual Word Sense Disambiguation
Incorporating Gloss Information
- arxiv url: http://arxiv.org/abs/2305.01788v2
- Date: Sun, 28 May 2023 13:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 00:29:07.107307
- Title: Vision Meets Definitions: Unsupervised Visual Word Sense Disambiguation
Incorporating Gloss Information
- Title(参考訳): Vision meets Definitions: Unsupervised Visual Word Sense Disambiguation incorporated Gloss Information
- Authors: Sunjae Kwon, Rishabh Garodia, Minhwa Lee, Zhichao Yang, Hong Yu
- Abstract要約: 本稿では,外部語彙知識ベース,特に感覚定義の光沢情報を用いた教師なしVWSD手法を提案する。
本研究では,解答の感覚情報が提供されない場合に,ベイズ推論を用いて感覚定義を取り入れることを提案する。
辞書外問題を改善するため,GPT-3を用いた文脈認識定義生成を提案する。
- 参考スコア(独自算出の注目度): 4.045461300332257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Word Sense Disambiguation (VWSD) is a task to find the image that most
accurately depicts the correct sense of the target word for the given context.
Previously, image-text matching models often suffered from recognizing
polysemous words. This paper introduces an unsupervised VWSD approach that uses
gloss information of an external lexical knowledge-base, especially the sense
definitions. Specifically, we suggest employing Bayesian inference to
incorporate the sense definitions when sense information of the answer is not
provided. In addition, to ameliorate the out-of-dictionary (OOD) issue, we
propose a context-aware definition generation with GPT-3. Experimental results
show that the VWSD performance significantly increased with our Bayesian
inference-based approach. In addition, our context-aware definition generation
achieved prominent performance improvement in OOD examples exhibiting better
performance than the existing definition generation method. We will publish
source codes as soon as possible.
- Abstract(参考訳): Visual Word Sense Disambiguation (VWSD) は、与えられたコンテキストに対する対象単語の正しい感覚を最も正確に表現した画像を見つけるためのタスクである。
これまで、画像テキストマッチングモデルは多義語認識に苦しめられていた。
本稿では,外部語彙知識ベース,特に感覚定義の光沢情報を用いた教師なしVWSD手法を提案する。
具体的には,解答の感覚情報が提供されない場合に,ベイズ推論を用いて感覚定義を取り入れることを提案する。
さらに,時間外問題(OOD)を改善するために,GPT-3を用いた文脈認識定義生成を提案する。
実験の結果,ベイズ推定法によりVWSDの性能は有意に向上した。
さらに,既存の定義生成手法よりも優れた性能を示すOOD例では,文脈認識による定義生成が顕著な性能向上を実現した。
できるだけ早くソースコードを公開します。
関連論文リスト
- Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - Large Language Models and Multimodal Retrieval for Visual Word Sense
Disambiguation [1.8591405259852054]
Visual Word Sense Disambiguation (VWSD)は、候補者の中から画像を取得することを目的とした、新しい課題である。
本稿では、様々なアプローチを適用することで、この興味深い課題を明らかにするための大きな一歩を踏み出す。
論文 参考訳(メタデータ) (2023-10-21T14:35:42Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - IRB-NLP at SemEval-2022 Task 1: Exploring the Relationship Between Words
and Their Semantic Representations [0.0]
本研究は,CODWOEデータセットを用いた記述的,探索的,予測的データ分析に基づいて行った。
本稿では,定義モデリングとリバース辞書タスクのために設計したシステムの概要について述べる。
論文 参考訳(メタデータ) (2022-05-13T18:15:20Z) - Connect-the-Dots: Bridging Semantics between Words and Definitions via
Aligning Word Sense Inventories [47.03271152494389]
Word Sense Disambiguationは、そのコンテキストに応じて、ある単語の正確な意味を自動的に識別することを目的としている。
既存の教師付きモデルは、限られた訓練データのために稀な単語感覚の正確な予測に苦慮している。
我々は,定義文を異なる意味の在庫から同じ意味に整合させ,豊富な語彙知識を収集する光沢アライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-27T00:04:33Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - SensPick: Sense Picking for Word Sense Disambiguation [1.1429576742016154]
我々は,対象単語の文脈情報と関連する光沢情報の両方を用いて,単語とグルースの集合間の意味的関係をモデル化する。
We propose SensPick, a type of stacked bidirectional Long Short Term Memory (LSTM) network to perform the WSD task。
論文 参考訳(メタデータ) (2021-02-10T04:52:42Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。