論文の概要: A Touch, Vision, and Language Dataset for Multimodal Alignment
- arxiv url: http://arxiv.org/abs/2402.13232v1
- Date: Tue, 20 Feb 2024 18:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 13:38:40.012739
- Title: A Touch, Vision, and Language Dataset for Multimodal Alignment
- Title(参考訳): マルチモーダルアライメントのためのタッチ、ビジョン、言語データセット
- Authors: Letian Fu and Gaurav Datta and Huang Huang and William Chung-Ho
Panitch and Jaimyn Drake and Joseph Ortiz and Mustafa Mukadam and Mike
Lambeta and Roberto Calandra and Ken Goldberg
- Abstract要約: この研究は、GPT-4V (90%) の人による注釈付き英語ラベル(10%)とテキスト擬似ラベル(90%)による、44K in-the-wild Vision-touchペアの新しいデータセットを導入している。
このデータセットを用いて、オープン語彙分類のための視覚言語対応触覚エンコーダと、訓練されたエンコーダを用いたテキスト生成のためのタッチビジョン言語モデルをトレーニングする。
その結果, 触覚を取り入れることで, TVL モデルでは既存のモデルよりもタッチビジョン言語アライメント(+29%の分類精度)が向上することが示唆された。
- 参考スコア(独自算出の注目度): 30.616909132040764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Touch is an important sensing modality for humans, but it has not yet been
incorporated into a multimodal generative language model. This is partially due
to the difficulty of obtaining natural language labels for tactile data and the
complexity of aligning tactile readings with both visual observations and
language descriptions. As a step towards bridging that gap, this work
introduces a new dataset of 44K in-the-wild vision-touch pairs, with English
language labels annotated by humans (10%) and textual pseudo-labels from GPT-4V
(90%). We use this dataset to train a vision-language-aligned tactile encoder
for open-vocabulary classification and a touch-vision-language (TVL) model for
text generation using the trained encoder. Results suggest that by
incorporating touch, the TVL model improves (+29% classification accuracy)
touch-vision-language alignment over existing models trained on any pair of
those modalities. Although only a small fraction of the dataset is
human-labeled, the TVL model demonstrates improved visual-tactile understanding
over GPT-4V (+12%) and open-source vision-language models (+32%) on a new
touch-vision understanding benchmark. Code and data:
https://tactile-vlm.github.io.
- Abstract(参考訳): タッチは、人間にとって重要なセンシングモダリティであるが、マルチモーダル生成言語モデルにはまだ組み込まれていない。
これは、触覚データのための自然言語ラベルを取得することの難しさと、視覚観察と言語記述の両方で触覚読解を整合させることの複雑さが原因である。
このギャップを埋めるためのステップとして、本研究では、人間の注釈付き英語ラベル(10%)とgpt-4vのテキスト付き擬似ラベル(90%)を含む44kの視覚-タッチペアの新しいデータセットを導入している。
このデータセットを用いて,オープンボキャブラリ分類のための視覚言語対応触覚エンコーダと,トレーニングされたエンコーダを用いたテキスト生成のためのタッチビジョン言語(tvl)モデルをトレーニングする。
その結果, 触覚を取り入れることで, TVL モデルでは既存のモデルよりもタッチビジョン言語アライメント(+29%の分類精度)が向上することが示唆された。
データセットのごく一部だけが人体ラベル付けされているが、TVLモデルはGPT-4V(+12%)とオープンソースの視覚言語モデル(+32%)を新しいタッチビジョン理解ベンチマークで改善した視覚触覚理解を示す。
コードとデータ: https://tactile-vlm.github.io。
関連論文リスト
- TextToucher: Fine-Grained Text-to-Touch Generation [20.49021594738016]
触覚画像の特徴を物体レベル(触覚テクスチャ,触覚形状)とセンサレベル(ゲルの状態)の2つの粒度から詳細に分析する。
高品質な触覚サンプルを生成するための細粒度テキストタッチ生成法(TextToucher)を提案する。
論文 参考訳(メタデータ) (2024-09-09T08:26:47Z) - Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset [50.09271028495819]
タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
論文 参考訳(メタデータ) (2024-03-14T19:01:54Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Tactile-ViewGCN: Learning Shape Descriptor from Tactile Data using Graph
Convolutional Network [0.4189643331553922]
触覚データを用いたオブジェクト分類に関するこれまでの研究を改善することに焦点を当てている。
本稿では,触覚的特徴を階層的に集約する新しい手法Tactile-ViewGCNを提案する。
提案手法は,STAGデータセットにおいて81.82%の精度で過去の手法より優れていた。
論文 参考訳(メタデータ) (2022-03-12T05:58:21Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。