論文の概要: IRFL: Image Recognition of Figurative Language
- arxiv url: http://arxiv.org/abs/2303.15445v2
- Date: Sun, 19 Nov 2023 07:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 19:57:50.436033
- Title: IRFL: Image Recognition of Figurative Language
- Title(参考訳): IRFL:図形言語の画像認識
- Authors: Ron Yosef, Yonatan Bitton, Dafna Shahaf
- Abstract要約: 図形は、しばしば複数のモダリティ(例えば、テキストと画像の両方)を通して伝達される。
我々は、図形言語データセットの画像認識を開発する。
マルチモーダルな図形言語理解のためのベンチマークとして,2つの新しいタスクを導入する。
- 参考スコア(独自算出の注目度): 20.472997304393413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Figures of speech such as metaphors, similes, and idioms are integral parts
of human communication. They are ubiquitous in many forms of discourse,
allowing people to convey complex, abstract ideas and evoke emotion. As
figurative forms are often conveyed through multiple modalities (e.g., both
text and images), understanding multimodal figurative language is an important
AI challenge, weaving together profound vision, language, commonsense and
cultural knowledge.
In this work, we develop the Image Recognition of Figurative Language (IRFL)
dataset. We leverage human annotation and an automatic pipeline we created to
generate a multimodal dataset, and introduce two novel tasks as a benchmark for
multimodal figurative language understanding. We experimented with
state-of-the-art vision and language models and found that the best (22%)
performed substantially worse than humans (97%). We release our dataset,
benchmark, and code, in hopes of driving the development of models that can
better understand figurative language.
- Abstract(参考訳): 比喩、シミュレート、イディオムなどの音声の図は人間のコミュニケーションの不可欠な部分である。
それらは様々な形態の言論においてユビキタスであり、人々は複雑な抽象的な考えを伝え、感情を誘発することができる。
図形形式はしばしば複数のモダリティ(テキストと画像の両方)を通して伝達されるため、多モーダルな図形言語を理解することは重要なAI課題であり、深いビジョン、言語、常識、文化的知識を織り合わせている。
本研究では,IRFL(Image Recognition of Figurative Language)データセットの開発を行う。
人間のアノテーションと自動パイプラインを利用して、マルチモーダルデータセットを生成し、マルチモーダル・フィギュラティブ言語理解のためのベンチマークとして2つの新しいタスクを導入する。
我々は最先端のビジョンと言語モデルを実験し、最高の(22%)は人間(97%)よりもかなり悪い結果が得られた。
私たちは、図形言語をよりよく理解できるモデルの開発を推進するために、データセット、ベンチマーク、コードをリリースしています。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - Can visual language models resolve textual ambiguity with visual cues? Let visual puns tell you! [14.84123301554462]
語彙的曖昧さの解消におけるマルチモーダル入力の影響を評価するための新しいベンチマークUNPIEを提案する。
私たちのデータセットには1,000個の句が含まれており、それぞれに両方の意味を説明する画像が添付されています。
その結果,様々なソクラティック・モデルとビジュアル・ランゲージ・モデルにより,視覚的コンテキストが与えられた場合に,テキストのみのモデルよりも改善されることが示された。
論文 参考訳(メタデータ) (2024-10-01T19:32:57Z) - Multilingual Multi-Figurative Language Detection [14.799109368073548]
比喩的言語理解は多言語環境では 非常に過小評価されています
我々は,多言語多言語言語モデリングを導入し,文レベル図形言語検出のためのベンチマークを提供する。
テンプレートに基づく即時学習に基づく図形言語検出のためのフレームワークを開発する。
論文 参考訳(メタデータ) (2023-05-31T18:52:41Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create
Visual Metaphors [38.70166865926743]
言語メタファーから視覚的メタファーを生成するための新しい課題を提案する。
これは、暗黙的な意味と構成性をモデル化する能力を必要とするため、拡散ベースのテキスト-画像モデルにとって難しいタスクである。
我々は1,540の言語メタファーとそれに関連する視覚的エラボレートのための6,476の視覚的メタファーを含む高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-05-24T05:01:10Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Multi-Figurative Language Generation [14.13782709351219]
具体的言語生成(英: Figurative language generation)とは、元の文脈に忠実でありながら、所望の言語図形のテキストを再構成する作業である。
我々は、英語で5つの共通表現形式の自動生成のためのベンチマークを提供することで、多言語モデリングへの第一歩を踏み出した。
論文 参考訳(メタデータ) (2022-09-05T08:48:09Z) - Iconary: A Pictionary-Based Game for Testing Multimodal Communication
with Drawings and Text [70.14613727284741]
人間とのコミュニケーションは、世界の共通理解、複雑なセマンティクス、時にはマルチモーダルなジェスチャーを必要とするため、AIにとって難しい。
図面と推測の協調ゲームであるIconaryの文脈において,これらの課題を考察する。
我々は、Iconaryをプレイし、人間のプレイヤー間で55,000以上のゲームでそれらをトレーニングするモデルを提案する。
論文 参考訳(メタデータ) (2021-12-01T19:41:03Z) - Investigating Robustness of Dialog Models to Popular Figurative Language
Constructs [30.841109045790862]
入力ダイアログコンテキストが図形言語の使用を示す状況において,既存のダイアログモデルの性能を解析する。
既存のモデルが図形言語に対してより堅牢になるための軽量なソリューションを提案する。
論文 参考訳(メタデータ) (2021-10-01T23:55:16Z) - It's not Rocket Science : Interpreting Figurative Language in Narratives [48.84507467131819]
我々は2つの非構成的図形言語(イディオムとシミュラ)の解釈を研究する。
実験の結果、事前学習された言語モデルのみに基づくモデルは、これらのタスクにおいて人間よりもはるかにひどい性能を示すことがわかった。
また, 知識強化モデルを提案し, 具体的言語を解釈するための人的戦略を採用した。
論文 参考訳(メタデータ) (2021-08-31T21:46:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。