論文の概要: The Visual Language of Fabrics
- arxiv url: http://arxiv.org/abs/2307.13681v1
- Date: Tue, 25 Jul 2023 17:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 15:57:41.420240
- Title: The Visual Language of Fabrics
- Title(参考訳): 織物の視覚言語
- Authors: Valentin Deschaintre, Julia Guerrero-Viu, Diego Gutierrez, Tamy
Boubekeur, Belen Masia
- Abstract要約: 自由文記述を様々なファブリック素材にリンクする新しいデータセットであるtext2fabricを紹介する。
このデータセットは、3,000のファブリック素材の画像に関連付けられた15,000の自然言語記述からなる。
- 参考スコア(独自算出の注目度): 14.926030595313447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce text2fabric, a novel dataset that links free-text descriptions
to various fabric materials. The dataset comprises 15,000 natural language
descriptions associated to 3,000 corresponding images of fabric materials.
Traditionally, material descriptions come in the form of tags/keywords, which
limits their expressivity, induces pre-existing knowledge of the appropriate
vocabulary, and ultimately leads to a chopped description system. Therefore, we
study the use of free-text as a more appropriate way to describe material
appearance, taking the use case of fabrics as a common item that non-experts
may often deal with. Based on the analysis of the dataset, we identify a
compact lexicon, set of attributes and key structure that emerge from the
descriptions. This allows us to accurately understand how people describe
fabrics and draw directions for generalization to other types of materials. We
also show that our dataset enables specializing large vision-language models
such as CLIP, creating a meaningful latent space for fabric appearance, and
significantly improving applications such as fine-grained material retrieval
and automatic captioning.
- Abstract(参考訳): 自由文記述を様々なファブリック素材にリンクする新しいデータセットであるtext2fabricを紹介する。
データセットは、15,000の自然言語記述からなり、3000の対応する織物材料の画像に対応する。
伝統的に、具体的記述は、その表現性を制限するタグ/キーワードの形で現れ、適切な語彙の既存の知識を誘導し、最終的に切り刻んだ記述システムへと繋がる。
そこで,本研究では,非専門家がよく扱う共通項目として,ファブリックの使用例を取り上げ,素材の外観を記述するための,自由文の使用について検討する。
データセットの分析に基づいて、記述から現れるコンパクトな辞書、属性の集合、キー構造を同定する。
これにより、人々が布をどう記述するかを正確に理解し、他の種類の材料に一般化するための方向を導き出すことができる。
また,このデータセットにより,CLIPなどの大規模視覚言語モデルの特殊化,布の外観に有意義な潜在空間の創出,きめ細かな材料検索や自動キャプションなどの適用性の向上が図られている。
関連論文リスト
- MatText: Do Language Models Need More than Text & Scale for Materials Modeling? [5.561723952524538]
MatTextは、モデリング材料における言語モデルのパフォーマンスを体系的に評価するために設計されたベンチマークツールとデータセットのスイートである。
MatTextは、材料科学の文脈で言語モデルのパフォーマンスをトレーニングし、ベンチマークするための重要なツールを提供する。
論文 参考訳(メタデータ) (2024-06-25T05:45:07Z) - DOCCI: Descriptions of Connected and Contrasting Images [58.377060316967864]
Connected and Contrasting Images (DOCCI) は、15k画像のための長い人間の注釈付き英語記述のデータセットである。
我々は、画像毎の包括的な記述を作成するよう、人間のアノテータに指示する。
DOCCIはテキスト・画像生成に有用なテストベッドであることを示す。
論文 参考訳(メタデータ) (2024-04-30T17:56:24Z) - Text2Scene: Text-driven Indoor Scene Stylization with Part-aware Details [12.660352353074012]
複数のオブジェクトからなる仮想シーンの現実的なテクスチャを自動生成するText2Sceneを提案する。
我々のパイプラインは、室内のラベル付き3Dジオメトリに詳細なテクスチャを追加し、生成した色が、しばしば類似の材料から構成される階層構造や意味的な部分を尊重するようにします。
論文 参考訳(メタデータ) (2023-08-31T17:37:23Z) - Leveraging Language Representation for Material Recommendation, Ranking,
and Exploration [0.0]
本稿では,言語モデルから派生した自然言語埋め込みを,構成的特徴と構造的特徴の表現として利用する材料発見フレームワークを提案する。
この枠組みを熱電学に適用することにより, 試作構造物の多種多様な推薦を行い, 未検討の高性能材料空間を同定する。
論文 参考訳(メタデータ) (2023-05-01T21:58:29Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - Leveraging Textures in Zero-shot Understanding of Fine-Grained Domains [34.848408203825194]
自然画像におけるテクスチャ特性の認識における大規模言語と視覚モデル(例えばCLIP)の有効性について検討する。
筆者らはまず,CLIPをテクスチャデータセット上で体系的に研究し,幅広いテクスチャ用語に好適なカバレッジがあることを見出した。
次に、これらの属性が既存のデータセットに対して、ゼロショットのきめ細かい分類を可能にする方法を示す。
論文 参考訳(メタデータ) (2022-03-22T04:07:20Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z) - Describing Textures using Natural Language [32.076605062485605]
自然画像のテクスチャは、色、形状、内部の要素の周期性、および自然言語を用いて記述できるその他の属性によって特徴づけられる。
テクスチャの豊富な記述を含む新しいデータセットにおいて,テクスチャの視覚的属性を記述する問題について検討した。
我々は、いくつかのきめ細かいドメインを視覚化し、データセットで学んだテクスチャ属性が、Caltech-UCSD Birdsデータセットのエキスパート設計属性よりも改善できることを示します。
論文 参考訳(メタデータ) (2020-08-03T20:37:35Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。