論文の概要: Demonstrating the Octopi-1.5 Visual-Tactile-Language Model
- arxiv url: http://arxiv.org/abs/2507.09985v1
- Date: Mon, 14 Jul 2025 07:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.460583
- Title: Demonstrating the Octopi-1.5 Visual-Tactile-Language Model
- Title(参考訳): Octopi-1.5視覚触覚言語モデルの実証
- Authors: Samson Yu, Kelvin Lin, Harold Soh,
- Abstract要約: デモでは、最新のビジュアル触覚言語モデルであるOctopi-1.5が採用されます。
このシステムは、GelSightとTAC-02の触覚センサーを備えた、新しいハンドヘルドの触覚インタフェースであるTMIを通じて、ライブで体験することができる。
我々は,触覚入力とコモンセンス知識を活用して,触覚推論タスクのOctopi-1.5について紹介する。
- 参考スコア(独自算出の注目度): 10.736350517456309
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Touch is recognized as a vital sense for humans and an equally important modality for robots, especially for dexterous manipulation, material identification, and scenarios involving visual occlusion. Building upon very recent work in touch foundation models, this demonstration will feature Octopi-1.5, our latest visual-tactile-language model. Compared to its predecessor, Octopi-1.5 introduces the ability to process tactile signals from multiple object parts and employs a simple retrieval-augmented generation (RAG) module to improve performance on tasks and potentially learn new objects on-the-fly. The system can be experienced live through a new handheld tactile-enabled interface, the TMI, equipped with GelSight and TAC-02 tactile sensors. This convenient and accessible setup allows users to interact with Octopi-1.5 without requiring a robot. During the demonstration, we will showcase Octopi-1.5 solving tactile inference tasks by leveraging tactile inputs and commonsense knowledge. For example, in a Guessing Game, Octopi-1.5 will identify objects being grasped and respond to follow-up queries about how to handle it (e.g., recommending careful handling for soft fruits). We also plan to demonstrate Octopi-1.5's RAG capabilities by teaching it new items. With live interactions, this demonstration aims to highlight both the progress and limitations of VTLMs such as Octopi-1.5 and to foster further interest in this exciting field. Code for Octopi-1.5 and design files for the TMI gripper are available at https://github.com/clear-nus/octopi-1.5.
- Abstract(参考訳): タッチは人間にとって重要な感覚であり、ロボットにとって同様に重要なモダリティとして認識されている。
タッチファウンデーションモデルに関する非常に最近の研究に基づいて、このデモは最新のビジュアル触覚言語モデルであるOctopi-1.5を特徴とする。
以前のOctopi-1.5と比較して、複数のオブジェクト部分から触覚信号を処理する機能を導入し、単純な検索拡張生成(RAG)モジュールを使用してタスクのパフォーマンスを改善し、新しいオブジェクトをオンザフライで学習する。
このシステムは、GelSightとTAC-02の触覚センサーを備えた、新しいハンドヘルドの触覚インタフェースであるTMIを通じて、ライブで体験することができる。
この便利でアクセスしやすいセットアップにより、ロボットを必要とせずにOctopi-1.5と対話できる。
デモでは,触覚入力と常識知識を活用した触覚推論タスクのOctopi-1.5について紹介する。
例えば、Guessing Gameでは、Octopi-1.5は、把握されているオブジェクトを特定し、それを扱う方法に関するフォローアップクエリに応答する(例えば、ソフトフルーツを慎重に扱うことを推奨する)。
また、Octopi-1.5のRAG機能を新しい項目で教えることも計画しています。
ライブインタラクションによって、このデモはOctopi-1.5のようなVTLMの進歩と限界の両方を強調し、このエキサイティングな分野へのさらなる関心を高めることを目的としている。
Octopi-1.5のコードとTMIグリップのファイルはhttps://github.com/clear-nus/octopi-1.5で入手できる。
関連論文リスト
- VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - Tactile-VLA: Unlocking Vision-Language-Action Model's Physical Knowledge for Tactile Generalization [14.189391793395384]
本稿では,視覚,言語,行動,触覚を深く融合させる新しいフレームワークであるTactile-VLAを紹介する。
実験では、Tactile-VLAの有効性と一般化性を3つの重要な側面で示している。
論文 参考訳(メタデータ) (2025-07-12T06:44:37Z) - HOMIE: Humanoid Loco-Manipulation with Isomorphic Exoskeleton Cockpit [52.12750762494588]
本稿では,半自律遠隔操作システムHOMIEを紹介する。
ペダルにマッピングされた身体制御のための強化学習ポリシー、腕制御のための異形外骨格アーム、手操作のためのモーションセンシンググローブを組み合わせている。
このシステムは完全なオープンソースであり、デモとコードはhttps://homietele.org/.com/で見ることができる。
論文 参考訳(メタデータ) (2025-02-18T16:33:38Z) - Digitizing Touch with an Artificial Multimodal Fingertip [51.7029315337739]
人間とロボットはどちらも、周囲の環境を知覚し、相互作用するためにタッチを使うことの恩恵を受ける。
ここでは、タッチのデジタル化を改善するための概念的および技術革新について述べる。
これらの進歩は、高度なセンシング機能を備えた人工指型センサーに具現化されている。
論文 参考訳(メタデータ) (2024-11-04T18:38:50Z) - Binding Touch to Everything: Learning Unified Multimodal Tactile
Representations [29.76008953177392]
複数モードに接続された視覚ベースのタッチセンサの統一モデルであるUniTouchを紹介する。
我々は、すでに様々なモダリティに関連付けられている事前訓練済みのイメージ埋め込みに、UniTouchの埋め込みを合わせることで、これを実現する。
さらに、学習可能なセンサ固有のトークンを提案し、不均一な触覚センサの集合からモデルを学習できるようにする。
論文 参考訳(メタデータ) (2024-01-31T18:59:57Z) - Multimodal and Force-Matched Imitation Learning with a See-Through Visuotactile Sensor [14.492202828369127]
我々は、模倣学習(IL)の枠組みの中でマルチモーダル・ビゾタクタクタブル・センサを活用して、コンタクトリッチなタスクを実行する。
本稿では,IL改善のための補完手法として,触覚力マッチングと学習モード切替という2つのアルゴリズム的貢献を紹介する。
以上の結果から, 力の一致が平均政策成功率62.5%, ビズオタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタクタク
論文 参考訳(メタデータ) (2023-11-02T14:02:42Z) - Octopus: Embodied Vision-Language Programmer from Environmental Feedback [58.04529328728999]
身体視覚言語モデル(VLM)は多モード認識と推論において大きな進歩を遂げた。
このギャップを埋めるために、我々は、計画と操作を接続する媒体として実行可能なコード生成を使用する、具体化された視覚言語プログラマであるOctopusを紹介した。
Octopusは、1)エージェントの視覚的およびテキスト的タスクの目的を正確に理解し、2)複雑なアクションシーケンスを定式化し、3)実行可能なコードを生成するように設計されている。
論文 参考訳(メタデータ) (2023-10-12T17:59:58Z) - Tactile-Filter: Interactive Tactile Perception for Part Mating [54.46221808805662]
人間は触覚と触覚に頼っている。
視覚ベースの触覚センサーは、様々なロボット認識や制御タスクに広く利用されている。
本稿では,視覚に基づく触覚センサを用いた対話的知覚手法を提案する。
論文 参考訳(メタデータ) (2023-03-10T16:27:37Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - TACTO: A Fast, Flexible and Open-source Simulator for High-Resolution
Vision-based Tactile Sensors [8.497185333795477]
TACTOは、視覚ベースの触覚センサのための高速で柔軟でオープンソースのシミュレータです。
リアルな高解像度のタッチ読み取りを毎秒数百フレームでレンダリングできる。
我々は,100万の把握から触覚による把握安定性の予測を学習することにより,知覚タスクにおけるTACTOの実証を行う。
論文 参考訳(メタデータ) (2020-12-15T17:54:07Z) - OmniTact: A Multi-Directional High Resolution Touch Sensor [109.28703530853542]
既存の触覚センサーは、平らで、感度が小さいか、低解像度の信号のみを提供する。
我々は,多方向高解像度触覚センサOmniTactを紹介する。
我々は,ロボット制御の課題に対して,OmniTactの能力を評価する。
論文 参考訳(メタデータ) (2020-03-16T01:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。