Fugu-MT 論文翻訳(概要): Assessing VLM-Driven Semantic-Affordance Inference for Non-Humanoid Robot Morphologies

論文の概要: Assessing VLM-Driven Semantic-Affordance Inference for Non-Humanoid Robot Morphologies

arxiv url: http://arxiv.org/abs/2604.19509v1
Date: Tue, 21 Apr 2026 14:26:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.811987
Title: Assessing VLM-Driven Semantic-Affordance Inference for Non-Humanoid Robot Morphologies
Title（参考訳）: 非ヒューマノイドロボット形態に対するVLM駆動セマンティック・アフォーマンス推論の評価
Authors: Jess Jones, Raul Santos-Rodriguez, Sabine Hauert,
Abstract要約: 視覚言語モデル(VLM)は、人間と物体の相互作用を理解する際、顕著な能力を示した。本研究は,人間と根本的に異なる実施形態を持つロボットに対して,VLMが効果的に余裕を推定できるかどうかを考察する。
参考スコア（独自算出の注目度）: 0.5003135699842282
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-language models (VLMs) have demonstrated remarkable capabilities in understanding human-object interactions, but their application to robotic systems with non-humanoid morphologies remains largely unexplored. This work investigates whether VLMs can effectively infer affordances for robots with fundamentally different embodiments than humans, addressing a critical gap in the deployment of these models for diverse robotic applications. We introduce a novel hybrid dataset that combines annotated real-world robotic affordance-object relations with VLM-generated synthetic scenarios, and perform an empirical analysis of VLM performance across multiple object categories and robot morphologies, revealing significant variations in affordance inference capabilities. Our experiments demonstrate that while VLMs show promising generalisation to non-humanoid robot forms, their performance is notably inconsistent across different object domains. Critically, we identify a consistent pattern of low false positive rates but high false negative rates across all morphologies and object categories, indicating that VLMs tend toward conservative affordance predictions. Our analysis reveals that this pattern is particularly pronounced for novel tool use scenarios and unconventional object manipulations, suggesting that effective integration of VLMs in robotic systems requires complementary approaches to mitigate over-conservative behaviour while preserving the inherent safety benefits of low false positive rates.
Abstract（参考訳）: 視覚言語モデル(VLM)は、人間と物体の相互作用を理解する際、顕著な能力を示したが、非人間型形態を持つロボットシステムへの応用は、いまだに未発見のままである。この研究は、VLMが人間と根本的に異なる実施形態を持つロボットに対して、効果的に余裕を推定できるかどうかを調査し、これらのモデルの多様なロボット応用への展開における重要なギャップに対処する。本稿では,VLM合成シナリオとアノテートされた実世界のロボット・アベイランス・オブジェクトの関係を組み合わせ,複数のオブジェクトカテゴリとロボット・モルフォロジーにわたるVLM性能の実証分析を行い,アベイランス推論能力の有意な変動を明らかにするハイブリッドデータセットを提案する。我々の実験は、VLMが非ヒューマノイドロボットに有望な一般化を示す一方で、その性能は異なる対象領域間で不整合であることを示した。批判的には、全ての形態や対象カテゴリーにまたがる低い偽陽性率と高い偽陰性率の一貫性パターンを同定し、VLMは保守的余裕の予測に傾向を示す。このパターンは, ロボットシステムにおけるVLMの効果的な統合には, 低偽陽性率の安全性を保ちながら, 過保守行動を緩和するための補完的アプローチが必要であることが示唆された。

関連論文リスト

Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文参考訳（メタデータ） (2025-11-27T18:50:21Z)
RobotArena $\infty$: Scalable Robot Benchmarking via Real-to-Sim Translation [47.79800816696372]
操作ポリシーの現実的なテストは、大規模に労働集約的で、再現が難しい。既存のシミュレーションベンチマークも同様に制限されており、同じ合成ドメイン内でポリシーをトレーニングおよびテストしている。本稿では,VLA評価を大規模にシミュレーションした拡張環境に移行することで,これらの課題を克服する新しいベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-27T17:41:38Z)
ROSA: Harnessing Robot States for Vision-Language and Action Alignment [24.426285156386715]
VLM(Vision-Language Models)は、エンドツーエンドのロボット制御において大きな進歩を遂げた。本稿では,ロボットの状態推定を利用して視覚言語と行動空間のアライメントを改善する新しいトレーニングパラダイムROSAを提案する。
論文参考訳（メタデータ） (2025-06-16T16:34:20Z)
ManipBench: Benchmarking Vision-Language Models for Low-Level Robot Manipulation [16.729702815913907]
VLM(Vision-Language Models)は、人工知能とロボティクスに革命をもたらした。ロボット操作では、VLMは主に高レベルプランナーとして使用されるが、最近の研究は、その低レベル推論能力についても研究している。 VLMの低レベルロボット操作推論能力を評価するために,新しいベンチマークManipBenchを提案する。
論文参考訳（メタデータ） (2025-05-14T18:01:00Z)
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics [68.36528819227641]
本稿では,ビジョン・ランゲージ・アクション(VLA)モデルのロバスト性を体系的に評価する。本研究では,ロボット行動の不安定化に空間的基盤を活用する2つの未目標攻撃目標と,ロボット軌道を操作する目標攻撃目標を導入する。我々は、カメラの視野に小さなカラフルなパッチを配置し、デジタルと物理の両方の環境で効果的に攻撃を実行する逆パッチ生成アプローチを設計する。
論文参考訳（メタデータ） (2024-11-18T01:52:20Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
HARPS: An Online POMDP Framework for Human-Assisted Robotic Planning and Sensing [1.3678064890824186]
HARPS(Human Assisted Robotic Planning and Sensing)フレームワークは、ロボットチームにおけるアクティブなセマンティックセンシングと計画のためのフレームワークである。このアプローチにより、人間が不規則にモデル構造を強制し、不確実な環境で意味的なソフトデータの範囲を拡張することができる。大規模部分構造環境におけるUAV対応ターゲット探索アプリケーションのシミュレーションは、時間と信念状態の推定において著しく改善されている。
論文参考訳（メタデータ） (2021-10-20T00:41:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。