論文の概要: Multimodal Word Sense Disambiguation in Creative Practice
- arxiv url: http://arxiv.org/abs/2007.07758v2
- Date: Sun, 17 Jan 2021 17:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 04:43:00.561317
- Title: Multimodal Word Sense Disambiguation in Creative Practice
- Title(参考訳): 創造的実践におけるマルチモーダルな単語センスの曖昧さ
- Authors: Manuel Ladron de Guevara, Christopher George, Akshat Gupta, Daragh
Byrne, Ramesh Krishnamurti
- Abstract要約: アート画像のあいまいな記述のデータセット(ADARI)を提案する。
総計240万枚の画像に記述文をラベル付けして整理されている。
建築、芸術、デザイン、ファッション、家具、製品デザイン、テクノロジーのサブドメインも併設されている。
- 参考スコア(独自算出の注目度): 2.9398911304923447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language is ambiguous; many terms and expressions can convey the same idea.
This is especially true in creative practice, where ideas and design intents
are highly subjective. We present a dataset, Ambiguous Descriptions of Art
Images (ADARI), of contemporary workpieces, which aims to provide a
foundational resource for subjective image description and multimodal word
disambiguation in the context of creative practice. The dataset contains a
total of 240k images labeled with 260k descriptive sentences. It is
additionally organized into sub-domains of architecture, art, design, fashion,
furniture, product design and technology. In subjective image description,
labels are not deterministic: for example, the ambiguous label dynamic might
correspond to hundreds of different images. To understand this complexity, we
analyze the ambiguity and relevance of text with respect to images using the
state-of-the-art pre-trained BERT model for sentence classification. We provide
a baseline for multi-label classification tasks and demonstrate the potential
of multimodal approaches for understanding ambiguity in design intentions. We
hope that ADARI dataset and baselines constitute a first step towards
subjective label classification.
- Abstract(参考訳): 言語は曖昧で、多くの用語や表現が同じ考えを伝えることができる。
これは特に、アイデアやデザインの意図が極めて主観的である創造的な実践において当てはまる。
本稿では,創造的実践の文脈における主観的画像記述と多モーダルな単語曖昧化の基礎となる資料を提供することを目的として,現代作品のAmbiguous Descriptions of Art Images (ADARI) を提示する。
データセットには260kの記述文でラベル付けされた240kの画像が含まれている。
さらに、建築、芸術、デザイン、ファッション、家具、製品デザイン、テクノロジーのサブドメインに編成されている。
主観的画像記述では、ラベルは決定論的ではない:例えば、あいまいなラベルダイナミックは数百の異なる画像に対応する。
この複雑さを理解するために,文分類のための最先端事前学習BERTモデルを用いて,画像に対するテキストのあいまいさと関連性を分析する。
マルチラベル分類タスクのベースラインを提供し,設計意図におけるあいまいさを理解するためのマルチモーダルアプローチの可能性を示す。
adariデータセットとベースラインが主観的なラベル分類への第一歩になることを願っている。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - A semantics-driven methodology for high-quality image annotation [4.7590051176368915]
本稿では,統合自然言語処理,知識表現,コンピュータビジョンの方法論であるvTelosを提案する。
vTelosの重要な要素は、WordNetのレキシコセマンティック階層を、自然言語ラベルの意味を提供する主要な手段として利用することである。
この手法はImageNet階層のサブセットをポップアップさせるイメージ上で検証される。
論文 参考訳(メタデータ) (2023-07-26T11:38:45Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Exploring Affordance and Situated Meaning in Image Captions: A
Multimodal Analysis [1.124958340749622]
Flickr30kデータセットのイメージに5つの知覚特性(Affordance, Perceptual Salience, Object Number, Cue Gazeing, Ecological Niche Association (ENA))を付加した注釈を付ける。
以上の結果より,ギブソニアの空白画像は,テコールの空白画像と比較して,「保持動詞」と「コンテナ名詞」を含む字幕の頻度が高いことが明らかとなった。
論文 参考訳(メタデータ) (2023-05-24T01:30:50Z) - Word-As-Image for Semantic Typography [41.380457098839926]
単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。
本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T09:59:25Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z) - Grounded and Controllable Image Completion by Incorporating Lexical
Semantics [111.47374576372813]
Lexical Semantic Image Completion (LSIC)は、芸術、デザイン、遺産保護に潜在的な応用をもたらす可能性がある。
視覚的文脈と語彙的文脈の両方に忠実な結果を生成することを提唱する。
LSICの大きな課題の1つは、ビジュアル・セマンティック・コンテキストの構造をモデル化し整合させることである。
論文 参考訳(メタデータ) (2020-02-29T16:54:21Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。