論文の概要: UAlberta at SemEval-2023 Task 1: Context Augmentation and Translation
for Multilingual Visual Word Sense Disambiguation
- arxiv url: http://arxiv.org/abs/2306.14067v1
- Date: Sat, 24 Jun 2023 22:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 17:12:18.767450
- Title: UAlberta at SemEval-2023 Task 1: Context Augmentation and Translation
for Multilingual Visual Word Sense Disambiguation
- Title(参考訳): ualberta - semeval-2023タスク1--多言語視覚単語の曖昧さ解消のための文脈拡張と翻訳
- Authors: Michael Ogezi, Bradley Hauer, Talgat Omarov, Ning Shi, Grzegorz
Kondrak
- Abstract要約: 本稿では,SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Taskについてアルバータ大学のシステムについて述べる。
本稿では,BabelNetから取得したグロスとテキストと画像エンコーダを組み合わせた新しいアルゴリズムを提案する。
また、翻訳テキストへの英語エンコーダの適用と、言語固有のエンコーダを比較した。
- 参考スコア(独自算出の注目度): 4.453335084914169
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe the systems of the University of Alberta team for the
SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Task. We present a novel
algorithm that leverages glosses retrieved from BabelNet, in combination with
text and image encoders. Furthermore, we compare language-specific encoders
against the application of English encoders to translated texts. As the
contexts given in the task datasets are extremely short, we also experiment
with augmenting these contexts with descriptions generated by a language model.
This yields substantial improvements in accuracy. We describe and evaluate
additional V-WSD methods which use image generation and text-conditioned image
segmentation. Overall, the results of our official submission rank us 18 out of
56 teams. Some of our unofficial results are even better than the official
ones. Our code is publicly available at https://github.com/UAlberta-NLP/v-wsd.
- Abstract(参考訳): 本稿では,SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Taskについてアルバータ大学のシステムについて述べる。
本稿では,BabelNetから取得したグロスとテキストと画像エンコーダを組み合わせた新しいアルゴリズムを提案する。
さらに,言語固有のエンコーダと,翻訳テキストへの英語エンコーダの適用を比較した。
タスクデータセットのコンテキストは非常に短いので、言語モデルによって生成された記述でこれらのコンテキストを拡張する実験も行います。
これにより精度が大幅に向上する。
画像生成とテキスト条件付き画像セグメンテーションを用いた付加的なV-WSD手法を記述・評価する。
総じて56チーム中18位にランクインしました。
非公式な結果のいくつかは、公式の結果よりも優れている。
私たちのコードはhttps://github.com/UAlberta-NLP/v-wsd.comで公開されています。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - HKUST at SemEval-2023 Task 1: Visual Word Sense Disambiguation with
Context Augmentation and Visual Assistance [5.5532783549057845]
本稿では,事前学習したビジョンランゲージモデルを最大限活用するマルチモーダル検索フレームワークを提案する。
当社のシステムは,SemEval-2023 Task 1では最も競争力のある成果を上げていませんが,チームの半分近くを破ることが可能です。
論文 参考訳(メタデータ) (2023-11-30T06:23:15Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - Augmenters at SemEval-2023 Task 1: Enhancing CLIP in Handling
Compositionality and Ambiguity for Zero-Shot Visual WSD through Prompt
Augmentation and Text-To-Image Diffusion [7.708214550816408]
本稿では、英語のVisual Word Sense Disambiguation Taskに対するゼロショットアプローチについて述べる。
予備研究により、CLIPを用いたフレーズと候補画像のマッチングは、画像とテキストのペアの多対多性に悩まされていることがわかった。
CLIPテキストエンコーダは、自然言語の合成性を捉える能力に制限がある可能性がある。
論文 参考訳(メタデータ) (2023-07-09T22:39:37Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。