論文の概要: Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset
- arxiv url: http://arxiv.org/abs/2403.09813v2
- Date: Fri, 10 May 2024 12:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 18:15:12.810940
- Title: Towards Comprehensive Multimodal Perception: Introducing the Touch-Language-Vision Dataset
- Title(参考訳): 包括的マルチモーダル知覚に向けて:タッチ・ランゲージ・ビジョン・データセットの導入
- Authors: Ning Cheng, You Li, Jing Gao, Bin Fang, Jinan Xu, Wenjuan Han,
- Abstract要約: タッチに関するマルチモーダル研究は 視覚と触覚のモダリティに焦点を当てています
我々は,人機械のカスケード協調によるTLV (Touch-Language-Vision) というタッチ言語ビジョンデータセットを構築した。
- 参考スコア(独自算出の注目度): 50.09271028495819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tactility provides crucial support and enhancement for the perception and interaction capabilities of both humans and robots. Nevertheless, the multimodal research related to touch primarily focuses on visual and tactile modalities, with limited exploration in the domain of language. Beyond vocabulary, sentence-level descriptions contain richer semantics. Based on this, we construct a touch-language-vision dataset named TLV (Touch-Language-Vision) by human-machine cascade collaboration, featuring sentence-level descriptions for multimode alignment. The new dataset is used to fine-tune our proposed lightweight training framework, TLV-Link (Linking Touch, Language, and Vision through Alignment), achieving effective semantic alignment with minimal parameter adjustments (1%). Project Page: https://xiaoen0.github.io/touch.page/.
- Abstract(参考訳): 触覚は、人間とロボットの両方の知覚と相互作用能力に対する重要なサポートと強化を提供する。
それでも、タッチに関連するマルチモーダル研究は主に視覚的・触覚的なモダリティに焦点を当てており、言語領域での探索は限られている。
語彙以外にも、文レベルの記述にはよりリッチな意味論が含まれる。
そこで我々は,マルチモードアライメントのための文レベル記述を特徴とする,人間と機械のカスケード協調によるTLV(Touch-Language-Vision)というタッチ言語ビジョンデータセットを構築した。
新しいデータセットは、提案した軽量トレーニングフレームワークTLV-Link(Linking Touch, Language, and Vision through Alignment)を微調整するために使用され、最小パラメータ調整(1%)で効果的なセマンティックアライメントを実現する。
Project Page: https://xiaoen0.github.io/touch.page/.com
関連論文リスト
- Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Improving Multilingual Neural Machine Translation by Utilizing Semantic and Linguistic Features [18.76505158652759]
複数の言語間の意味的特徴と言語的特徴を利用して多言語翻訳を強化することを提案する。
エンコーダ側では,意味的特徴と言語的特徴を両立させることにより,エンコーダ表現を整合させる非係合学習タスクを導入する。
デコーダ側では、言語エンコーダを利用して低レベル言語機能を統合し、ターゲット言語生成を支援する。
論文 参考訳(メタデータ) (2024-08-02T17:10:12Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - A Touch, Vision, and Language Dataset for Multimodal Alignment [30.616909132040764]
この研究は、GPT-4V (90%) の人による注釈付き英語ラベル(10%)とテキスト擬似ラベル(90%)による、44K in-the-wild Vision-touchペアの新しいデータセットを導入している。
このデータセットを用いて、オープン語彙分類のための視覚言語対応触覚エンコーダと、訓練されたエンコーダを用いたテキスト生成のためのタッチビジョン言語モデルをトレーニングする。
その結果, 触覚を取り入れることで, TVL モデルでは既存のモデルよりもタッチビジョン言語アライメント(+29%の分類精度)が向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T18:47:56Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。