論文の概要: IRFL: Image Recognition of Figurative Language
- arxiv url: http://arxiv.org/abs/2303.15445v1
- Date: Mon, 27 Mar 2023 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:00:43.409501
- Title: IRFL: Image Recognition of Figurative Language
- Title(参考訳): IRFL:図形言語の画像認識
- Authors: Ron Yosef, Yonatan Bitton, Dafna Shahaf
- Abstract要約: フィギュラティブな形式は、言語が表現力を持ち、感情を呼び起こし、そうでなければ可視化が難しい抽象的なアイデアを伝えることを可能にする。
本稿では,図形言語に対する視覚モデルと言語モデルの理解を検討するために,図形言語データセットの画像認識を提案する。
- 参考スコア(独自算出の注目度): 12.822150196019422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Figures of speech such as metaphors, similes, and idioms allow language to be
expressive, invoke emotion, and communicate abstract ideas that might otherwise
be difficult to visualize. These figurative forms are often conveyed through
multiple modes, such as text and images, and frequently appear in advertising,
news, social media, etc. Understanding multimodal figurative language is an
essential component of human communication, and it plays a significant role in
our daily interactions. While humans can intuitively understand multimodal
figurative language, this poses a challenging task for machines that requires
the cognitive ability to map between domains, abstraction, commonsense, and
profound language and cultural knowledge. In this work, we propose the Image
Recognition of Figurative Language dataset to examine vision and language
models' understanding of figurative language. We leverage human annotation and
an automatic pipeline we created to generate a multimodal dataset and introduce
two novel tasks as a benchmark for multimodal figurative understanding. We
experiment with several baseline models and find that all perform substantially
worse than humans. We hope our dataset and benchmark will drive the development
of models that will better understand figurative language.
- Abstract(参考訳): メタファー、シミュレート、イディオムのような表現の図は、言語が表現力を持ち、感情を呼び起こし、それ以外は可視化が難しい抽象的な考えを伝えることを可能にする。
これらの比定形はしばしばテキストや画像などの複数のモードを通じて伝達され、広告、ニュース、ソーシャルメディアなどで頻繁に現れる。
マルチモーダル・フィギュラティブ言語を理解することは人間のコミュニケーションの重要な要素であり、日々のコミュニケーションにおいて重要な役割を果たす。
人間は直感的に多モーダルな図形言語を理解することができるが、これはドメイン、抽象、常識、深い言語と文化の知識をマッピングする認知能力を必要とする機械にとって難しい課題となる。
本研究では,フィギュラブル言語に対する視覚と言語モデルの理解を調べるために,フィギュラブル言語データセットの画像認識を提案する。
人間のアノテーションと自動パイプラインを利用して、マルチモーダルデータセットを生成し、マルチモーダル図形理解のためのベンチマークとして2つの新しいタスクを導入する。
いくつかのベースラインモデルで実験を行い、すべての性能が人間よりはるかに悪いことを発見した。
当社のデータセットとベンチマークが,フィギュラブル言語をより理解するためのモデルの開発を促進することを願っています。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! [14.84123301554462]
語彙的曖昧さの解消におけるマルチモーダル入力の影響を評価するための新しいベンチマークUNPIEを提案する。
私たちのデータセットには1,000個の句が含まれており、それぞれに両方の意味を説明する画像が添付されています。
その結果,様々なソクラティック・モデルとビジュアル・ランゲージ・モデルにより,視覚的コンテキストが与えられた場合に,テキストのみのモデルよりも改善されることが示された。
論文 参考訳(メタデータ) (2024-10-01T19:32:57Z) - Multilingual Multi-Figurative Language Detection [14.799109368073548]
比喩的言語理解は多言語環境では 非常に過小評価されています
我々は,多言語多言語言語モデリングを導入し,文レベル図形言語検出のためのベンチマークを提供する。
テンプレートに基づく即時学習に基づく図形言語検出のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-31T18:52:41Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create
Visual Metaphors [38.70166865926743]
言語メタファーから視覚的メタファーを生成するための新しい課題を提案する。
これは、暗黙的な意味と構成性をモデル化する能力を必要とするため、拡散ベースのテキスト-画像モデルにとって難しいタスクである。
我々は1,540の言語メタファーとそれに関連する視覚的エラボレートのための6,476の視覚的メタファーを含む高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-05-24T05:01:10Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multi-Figurative Language Generation [14.13782709351219]
具体的言語生成(英: Figurative language generation)とは、元の文脈に忠実でありながら、所望の言語図形のテキストを再構成する作業である。
我々は、英語で5つの共通表現形式の自動生成のためのベンチマークを提供することで、多言語モデリングへの第一歩を踏み出した。
論文 参考訳(メタデータ) (2022-09-05T08:48:09Z) - Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文 参考訳(メタデータ) (2021-12-01T19:41:03Z) - Investigating Robustness of Dialog Models to Popular Figurative Language
Constructs [30.841109045790862]
入力ダイアログコンテキストが図形言語の使用を示す状況において,既存のダイアログモデルの性能を解析する。
既存のモデルが図形言語に対してより堅牢になるための軽量なソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-01T23:55:16Z) - It's not Rocket Science : Interpreting Figurative Language in Narratives [48.84507467131819]
我々は2つの非構成的図形言語(イディオムとシミュラ)の解釈を研究する。
実験の結果、事前学習された言語モデルのみに基づくモデルは、これらのタスクにおいて人間よりもはるかにひどい性能を示すことがわかった。
また, 知識強化モデルを提案し, 具体的言語を解釈するための人的戦略を採用した。
論文 参考訳(メタデータ) (2021-08-31T21:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。