論文の概要: ThermoAct:Thermal-Aware Vision-Language-Action Models for Robotic Perception and Decision-Making
- arxiv url: http://arxiv.org/abs/2603.25044v1
- Date: Thu, 26 Mar 2026 05:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.11842
- Title: ThermoAct:Thermal-Aware Vision-Language-Action Models for Robotic Perception and Decision-Making
- Title(参考訳): サーモアクト:ロボットの知覚と意思決定のためのサーマルアウェアビジョン・ランゲージ・アクションモデル
- Authors: Young-Chae Son, Dae-Kwan Ko, Yoon-Ji Choi, Soo-Chul Lim,
- Abstract要約: 本稿では,ロボットのタスク実行に熱情報を組み込んだビジョン・ランゲージ・アクション・フレームワークを提案する。
提案システムは、複雑な自然言語コマンドを解釈する高レベルプランナとして、ビジョンランゲージモデル(VLM)を利用する。
視覚データのみに依存した従来の手法とは異なり,本手法は熱情報を統合し,ロボットが物理的特性を認識し,環境安全を積極的に確保することを可能にする。
- 参考スコア(独自算出の注目度): 2.86989372262348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent human-robot collaboration environments, there is a growing focus on integrating diverse sensor data beyond visual information to enable safer and more intelligent task execution. Although thermal data can be crucial for enhancing robot safety and operational efficiency, its integration has been relatively overlooked in prior research. This paper proposes a novel Vision-Language-Action (VLA) framework that incorporates thermal information for robot task execution. The proposed system leverages a Vision-Language Model (VLM) as a high-level planner to interpret complex natural language commands and decompose them into simpler sub-tasks. This approach facilitates efficient data collection and robust reasoning for complex operations. Unlike conventional methods that rely solely on visual data, our approach integrates thermal information, enabling the robot to perceive physical properties and proactively ensure environmental safety. Experimental results from real-world task scenarios validate the feasibility of our proposed framework, suggesting its potential to enhance task success rates and safety compared to existing vision-based systems.
- Abstract(参考訳): 最近の人間とロボットのコラボレーション環境では、視覚情報以外の多様なセンサーデータを統合して、より安全でインテリジェントなタスク実行を可能にしている。
熱データは、ロボットの安全性と運用効率を高めるために重要であるが、以前の研究では、その統合は比較的見落とされてきた。
本稿では,ロボットのタスク実行に熱情報を組み込んだビジョン・ランゲージ・アクション(VLA)フレームワークを提案する。
提案システムでは,視覚言語モデル(VLM)を高レベルプランナとして利用して,複雑な自然言語コマンドを解釈し,より単純なサブタスクに分解する。
このアプローチは、複雑な操作に対する効率的なデータ収集と堅牢な推論を容易にする。
視覚データのみに依存した従来の手法とは異なり,本手法は熱情報を統合し,ロボットが物理的特性を認識し,環境安全を積極的に確保することを可能にする。
実世界のタスクシナリオによる実験結果から提案手法の有効性が検証され,既存のビジョンベースシステムと比較してタスク成功率と安全性を高める可能性が示唆された。
関連論文リスト
- AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。
本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。
我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文 参考訳(メタデータ) (2024-11-18T01:52:20Z) - QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [37.952398683031895]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文 参考訳(メタデータ) (2023-12-22T06:15:03Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。