論文の概要: UAlberta at SemEval-2023 Task 1: Context Augmentation and Translation
for Multilingual Visual Word Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2306.14067v1
- Date: Sat, 24 Jun 2023 22:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:12:18.767450
- Title: UAlberta at SemEval-2023 Task 1: Context Augmentation and Translation
for Multilingual Visual Word Sense Disambiguation
- Title(参考訳): ualberta - semeval-2023タスク1--多言語視覚単語の曖昧さ解消のための文脈拡張と翻訳
- Authors: Michael Ogezi, Bradley Hauer, Talgat Omarov, Ning Shi, Grzegorz
Kondrak
- Abstract要約: 本稿では,SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Taskについてアルバータ大学のシステムについて述べる。
本稿では,BabelNetから取得したグロスとテキストと画像エンコーダを組み合わせた新しいアルゴリズムを提案する。
また、翻訳テキストへの英語エンコーダの適用と、言語固有のエンコーダを比較した。
- 参考スコア(独自算出の注目度): 4.453335084914169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe the systems of the University of Alberta team for the
SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Task. We present a novel
algorithm that leverages glosses retrieved from BabelNet, in combination with
text and image encoders. Furthermore, we compare language-specific encoders
against the application of English encoders to translated texts. As the
contexts given in the task datasets are extremely short, we also experiment
with augmenting these contexts with descriptions generated by a language model.
This yields substantial improvements in accuracy. We describe and evaluate
additional V-WSD methods which use image generation and text-conditioned image
segmentation. Overall, the results of our official submission rank us 18 out of
56 teams. Some of our unofficial results are even better than the official
ones. Our code is publicly available at https://github.com/UAlberta-NLP/v-wsd.
- Abstract(参考訳): 本稿では,SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Taskについてアルバータ大学のシステムについて述べる。
本稿では,BabelNetから取得したグロスとテキストと画像エンコーダを組み合わせた新しいアルゴリズムを提案する。
さらに,言語固有のエンコーダと,翻訳テキストへの英語エンコーダの適用を比較した。
タスクデータセットのコンテキストは非常に短いので、言語モデルによって生成された記述でこれらのコンテキストを拡張する実験も行います。
これにより精度が大幅に向上する。
画像生成とテキスト条件付き画像セグメンテーションを用いた付加的なV-WSD手法を記述・評価する。
総じて56チーム中18位にランクインしました。
非公式な結果のいくつかは、公式の結果よりも優れている。
私たちのコードはhttps://github.com/UAlberta-NLP/v-wsd.comで公開されています。
関連論文リスト
- IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - HKUST at SemEval-2023 Task 1: Visual Word Sense Disambiguation with
Context Augmentation and Visual Assistance [5.5532783549057845]
本稿では,事前学習したビジョンランゲージモデルを最大限活用するマルチモーダル検索フレームワークを提案する。
当社のシステムは,SemEval-2023 Task 1では最も競争力のある成果を上げていませんが,チームの半分近くを破ることが可能です。
論文 参考訳(メタデータ) (2023-11-30T06:23:15Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Augmenters at SemEval-2023 Task 1: Enhancing CLIP in Handling
Compositionality and Ambiguity for Zero-Shot Visual WSD through Prompt
Augmentation and Text-To-Image Diffusion [7.708214550816408]
本稿では、英語のVisual Word Sense Disambiguation Taskに対するゼロショットアプローチについて述べる。
予備研究により、CLIPを用いたフレーズと候補画像のマッチングは、画像とテキストのペアの多対多性に悩まされていることがわかった。
CLIPテキストエンコーダは、自然言語の合成性を捉える能力に制限がある可能性がある。
論文 参考訳(メタデータ) (2023-07-09T22:39:37Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。