論文の概要: SToLa: Self-Adaptive Touch-Language Framework with Tactile Commonsense Reasoning in Open-Ended Scenarios
- arxiv url: http://arxiv.org/abs/2505.04201v1
- Date: Wed, 07 May 2025 07:55:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.005003
- Title: SToLa: Self-Adaptive Touch-Language Framework with Tactile Commonsense Reasoning in Open-Ended Scenarios
- Title(参考訳): SToLa: オープンエンディングシナリオにおける触覚コモンセンス推論による自己適応型タッチランゲージフレームワーク
- Authors: Ning Cheng, Jinan Xu, Jialing Chen, Wenjuan Han,
- Abstract要約: 本稿では,マルチモーダル推論のための知的システムに触覚を組み込むことの課題について考察する。
自己言語型タッチランゲージフレームワークであるSToLaを紹介する。
我々は、総合的な触覚コモンセンス推論データセットとベンチマークを示す。
- 参考スコア(独自算出の注目度): 44.650313509143984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the challenges of integrating tactile sensing into intelligent systems for multimodal reasoning, particularly in enabling commonsense reasoning about the open-ended physical world. We identify two key challenges: modality discrepancy, where existing large touch-language models often treat touch as a mere sub-modality of language, and open-ended tactile data scarcity, where current datasets lack the diversity, open-endness and complexity needed for reasoning. To overcome these challenges, we introduce SToLa, a Self-Adaptive Touch-Language framework. SToLa utilizes Mixture of Experts (MoE) to dynamically process, unify, and manage tactile and language modalities, capturing their unique characteristics. Crucially, we also present a comprehensive tactile commonsense reasoning dataset and benchmark featuring free-form questions and responses, 8 physical properties, 4 interactive characteristics, and diverse commonsense knowledge. Experiments show SToLa exhibits competitive performance compared to existing models on the PhysiCLeAR benchmark and self-constructed datasets, proving the effectiveness of the Mixture of Experts architecture in multimodal management and the performance advantages for open-scenario tactile commonsense reasoning tasks.
- Abstract(参考訳): 本稿では,マルチモーダル推論のための知的システムに触覚センサを組み込むことの課題について考察する。
既存の大規模タッチ言語モデルでは、タッチを単なるサブモダリティとして扱うことの多いモダリティの相違と、現在のデータセットでは、推論に必要な多様性、オープンエンディネス、複雑さが欠如しているオープンエンドな触覚データ不足です。
これらの課題を克服するために、SToLa(Self-Adaptive Touch-Language framework)を紹介します。
SToLaはMixture of Experts(MoE)を使用して、触覚と言語のモダリティを動的に処理し、統一し、管理する。
また,自由形式の質問や回答,8つの物理的特性,4つのインタラクティブな特徴,多様なコモンセンス知識を特徴とする,総合的な触覚的コモンセンス推論データセットとベンチマークを提示する。
実験の結果、SToLaは、PhysicalCLeARベンチマークや自己構築データセットの既存のモデルと比較して、競合性能を示し、マルチモーダル管理におけるMixture of Expertsアーキテクチャの有効性と、オープンシナリオの触覚コモンセンス推論タスクのパフォーマンス上の利点を証明している。
関連論文リスト
- Chain of Questions: Guiding Multimodal Curiosity in Language Models [2.0180882714261568]
質問の連鎖 (Chain of Questions, CoQ) は好奇心を駆使した推論手法であり, マルチモーダル言語モデルにより, 周辺環境に関する対象とする質問を生成する。
我々は、WebGPT、ScienceQA、AVSD、ScanQAデータセットを統合した新しいマルチモーダルベンチマークデータセットについて、我々のフレームワークを評価する。
論文 参考訳(メタデータ) (2025-08-06T11:42:54Z) - SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations [68.9300049150948]
インタラクション実証(Reinforcement Demonstration, RLID)からの強化学習における根本的な課題に対処する。
既存のデータ収集アプローチはスパース、非接続、ノイズのトラジェクトリを生成し、スキルのバリエーションとトランジションの完全なスペクトルをキャプチャできない。
本稿では,実証技術間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と,実証地区内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T13:00:29Z) - EEG-based Multimodal Representation Learning for Emotion Recognition [26.257531037300325]
本稿では,ビデオ,画像,音声などの従来のモダリティだけでなく,脳波データも組み込んだ新しいマルチモーダルフレームワークを提案する。
本フレームワークは,様々な入力サイズを柔軟に扱えるように設計されている。
論文 参考訳(メタデータ) (2024-10-29T01:35:17Z) - HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。
モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文 参考訳(メタデータ) (2024-07-03T18:00:48Z) - AllSpark: A Multimodal Spatio-Temporal General Intelligence Model with Ten Modalities via Language as a Reference Framework [21.10693332367192]
マルチモーダル時間汎用人工知能モデルであるAllSparkを提案する。
私たちのモデルは10の異なるモダリティを統一されたフレームワークに統合します。
実験により、AllSparkは言語を組み込むことで、数ショットの分類タスクで優れていることが示されている。
論文 参考訳(メタデータ) (2023-12-31T17:21:02Z) - Syntax-Informed Interactive Model for Comprehensive Aspect-Based
Sentiment Analysis [0.0]
総合ABSAのためのシンタクティック・依存性強化マルチタスクインタラクション・アーキテクチャ(SDEMTIA)を提案する。
我々のアプローチは、SDEIN(Syntactic Dependency Embedded Interactive Network)を用いた構文知識(依存関係と型)を革新的に活用する。
また,学習効率を高めるために,マルチタスク学習フレームワークに,新規で効率的なメッセージパッシング機構を組み込んだ。
論文 参考訳(メタデータ) (2023-11-28T16:03:22Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。