論文の概要: Detecting Euphemisms with Literal Descriptions and Visual Imagery
- arxiv url: http://arxiv.org/abs/2211.04576v1
- Date: Tue, 8 Nov 2022 21:50:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:03:17.742545
- Title: Detecting Euphemisms with Literal Descriptions and Visual Imagery
- Title(参考訳): リテラル記述と視覚画像によるエフェミズムの検出
- Authors: \.Ilker Kesen, Aykut Erdem, Erkut Erdem and Iacer Calixto
- Abstract要約: 本稿では,EMNLP 2022とともに第3回言語処理ワークショップが主催する,エフェミズム検出共有タスクのための2段階のシステムについて述べる。
第1段階では、入力テキストプロンプトにリテラル記述を組み込むことにより、このあいまいさを軽減することを目指しており、このような直接的な監督が目覚ましい性能向上をもたらすことが判明した。
第2段階では,テキスト・ツー・イメージ・モデルによって生成される2つの画像の集合である視覚的イメージを用いた視覚的監視を,用語や記述を入力として行うことで,視覚的監督が統計的に有意な性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 18.510509701709054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our two-stage system for the Euphemism Detection shared
task hosted by the 3rd Workshop on Figurative Language Processing in
conjunction with EMNLP 2022. Euphemisms tone down expressions about sensitive
or unpleasant issues like addiction and death. The ambiguous nature of
euphemistic words or expressions makes it challenging to detect their actual
meaning within a context. In the first stage, we seek to mitigate this
ambiguity by incorporating literal descriptions into input text prompts to our
baseline model. It turns out that this kind of direct supervision yields
remarkable performance improvement. In the second stage, we integrate visual
supervision into our system using visual imageries, two sets of images
generated by a text-to-image model by taking terms and descriptions as input.
Our experiments demonstrate that visual supervision also gives a statistically
significant performance boost. Our system achieved the second place with an F1
score of 87.2%, only about 0.9% worse than the best submission.
- Abstract(参考訳): 本稿では,EMNLP 2022とともに第3回言語処理ワークショップが主催するエフェミズム検出共有タスクの2段階システムについて述べる。
ユーフェリズムは、中毒や死といったセンシティブな、あるいは不快な問題についての表現を抑える。
ユーヘマティックな言葉や表現のあいまいな性質は、文脈内で実際の意味を検出することを困難にしている。
第一段階では、ベースラインモデルに入力テキストプロンプトにリテラル記述を組み込むことにより、この曖昧さを軽減することを目指している。
この種の直接的な監督は、顕著なパフォーマンス改善をもたらすことが判明した。
第2段階では,テキスト・ツー・イメージ・モデルによって生成される画像の2つのセットである視覚的イメージを用いた視覚的監視をシステムに組み込む。
我々の実験は、視覚監督が統計的に有意な性能向上をもたらすことを示した。
我々のシステムは、F1スコア87.2%で2位となり、ベスト・サブミッションよりも約0.9%劣った。
関連論文リスト
- Text-to-Image Generation for Vocabulary Learning Using the Keyword Method [9.862827991755076]
「キーワード法」は外国語の語彙を学ぶのに有効な技法である。
単語の意味と、外国語の発音がどんなものかを記憶可能なビジュアルリンクを作成する。
我々は、記憶可能なビジュアルリンクを視覚に外部化するために、キーワードメソッドとテキスト・ツー・イメージ・ジェネレータを組み合わせるアプリケーションを開発した。
論文 参考訳(メタデータ) (2025-01-28T17:39:50Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - OPI at SemEval 2023 Task 1: Image-Text Embeddings and Multimodal
Information Retrieval for Visual Word Sense Disambiguation [0.0]
本稿では,SemEval 2023の視覚的単語感覚の曖昧さ共有タスクについて述べる。
提案システムは,マルチモーダル埋め込み,メソッドのランク付け学習,知識に基づくアプローチを統合している。
私たちのソリューションは多言語作業では3位にランクされ、ペルシャの3つのサブタスクのうちの1つであるトラックで優勝しました。
論文 参考訳(メタデータ) (2023-04-14T13:45:59Z) - Image Retrieval from Contextual Descriptions [22.084939474881796]
文脈記述による画像検索(ImageCoDe)
文脈記述に基づく10の最小限のコントラスト候補から正しい画像を取得するためのモデル。
ビデオフレームでは20.9、静的画像では59.4の精度で、人間では90.8である。
論文 参考訳(メタデータ) (2022-03-29T19:18:12Z) - Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding [59.8167502322261]
本稿では,エンコーダ・デコーダ・トランスフォーマアーキテクチャに基づくワンステージ視覚グラウンドネットワークであるWord2Pixを提案する。
クエリ文からの各単語の埋め込みは、個別に視覚画素に参画することで同様に処理される。
提案されたWord2Pixは、既存のワンステージメソッドよりも顕著なマージンで優れている。
論文 参考訳(メタデータ) (2021-07-31T10:20:15Z) - Connecting What to Say With Where to Look by Modeling Human Attention
Traces [30.8226861256742]
画像,テキスト,人間の注意跡を共同でモデル化する統合フレームワークを提案する。
本研究では,(1)画像とキャプション(視覚的接地)に与えられたトレースを予測し,(2)画像のみに与えられるキャプションとトレースを予測する2つの新しいタスクを提案する。
論文 参考訳(メタデータ) (2021-05-12T20:53:30Z) - This is not the Texture you are looking for! Introducing Novel
Counterfactual Explanations for Non-Experts using Generative Adversarial
Learning [59.17685450892182]
反実用説明システムは、入力画像を変更して反実用推論を可能にする。
本稿では, 対向画像から画像への変換技術に基づく, 対向画像の説明を新たに生成する手法を提案する。
その結果,我々のアプローチは,2つの最先端技術システムよりも,メンタルモデル,説明満足度,信頼度,感情,自己効力に関して有意に優れた結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-22T10:08:05Z) - Visually Grounded Compound PCFGs [65.04669567781634]
言語理解のための視覚的基盤の爆発は、最近多くの注目を集めている。
本研究では,視覚的な文法誘導について検討し,未ラベルテキストとその視覚的キャプションから選挙区を学習する。
論文 参考訳(メタデータ) (2020-09-25T19:07:00Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。