論文の概要: VCA: Vision-Click-Action Framework for Precise Manipulation of Segmented Objects in Target Ambiguous Environments
- arxiv url: http://arxiv.org/abs/2602.23583v1
- Date: Fri, 27 Feb 2026 01:23:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.752388
- Title: VCA: Vision-Click-Action Framework for Precise Manipulation of Segmented Objects in Target Ambiguous Environments
- Title(参考訳): VCA:曖昧な環境下での分割対象の精密操作のための視覚的クリック・アクション・フレームワーク
- Authors: Donggeon Kim, Seungwon Jan, Hyeonjun Park, Daegyu Lim,
- Abstract要約: テキストコマンドを直接クリックベースの視覚インタラクションに置き換えるフレームワークであるVision-Click-Action(VCA)を提案する。
VCAは解釈エラーを低減し、認知負荷を低減し、実世界のロボット操作のための言語駆動インタフェースに代わる実用的でスケーラブルな代替手段を提供する。
- 参考スコア(独自算出の注目度): 2.566571621858397
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The reliance on language in Vision-Language-Action (VLA) models introduces ambiguity, cognitive overhead, and difficulties in precise object identification and sequential task execution, particularly in environments with multiple visually similar objects. To address these limitations, we propose Vision-Click-Action (VCA), a framework that replaces verbose textual commands with direct, click-based visual interaction using pretrained segmentation models. By allowing operators to specify target objects clearly through visual selection in the robot's 2D camera view, VCA reduces interpretation errors, lowers cognitive load, and provides a practical and scalable alternative to language-driven interfaces for real-world robotic manipulation. Experimental results validate that the proposed VCA framework achieves effective instance-level manipulation of specified target objects. Experiment videos are available at https://robrosinc.github.io/vca/.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルにおける言語への依存は、曖昧さ、認知的オーバーヘッド、正確なオブジェクト識別とシーケンシャルなタスク実行の難しさ、特に複数の視覚的に類似したオブジェクトを持つ環境において導入される。
これらの制約に対処するため、事前訓練されたセグメンテーションモデルを用いて、冗長なテキストコマンドを直接クリックベースの視覚的インタラクションに置き換えるフレームワークであるVision-Click-Action (VCA)を提案する。
オペレータがロボットの2Dカメラビューで視覚的選択によってターゲットオブジェクトを明確に指定できるようにすることで、VCAは解釈エラーを低減し、認知的負荷を低減し、現実のロボット操作のための言語駆動インタフェースに代わる実用的でスケーラブルな代替手段を提供する。
実験により,提案するVCAフレームワークが,特定対象オブジェクトの有効インスタンスレベルの操作を実現することを確認した。
実験ビデオはhttps://robrosinc.github.io/vca/.comで公開されている。
関連論文リスト
- Bring My Cup! Personalizing Vision-Language-Action Models with Visual Attentive Prompting [15.173629384871013]
Visual Attentive Prompting (VAP) は、凍結したビジョン・ランゲージ・アクションモデルに選択的注意を払って装備する、トレーニング不要の知覚アダプタである。
VAPは、成功率と正しいオブジェクト操作の両方において、一般的なポリシーとトークン学習ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-12-23T03:13:39Z) - Improving Generalization of Language-Conditioned Robot Manipulation [29.405161073483175]
いくつかの実演からオブジェクトアレンジメントタスクを学習するフレームワークを提案する。
シミュレーション環境と実世界のロボット環境の両方において,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-08-04T13:29:26Z) - InterRVOS: Interaction-aware Referring Video Object Segmentation [44.55538737075162]
インタラクションのモデリングに焦点をあてた新しいタスクであるInterRVOS(Interaction-Aware Referring Video Object)を紹介する。
モデルはアクターとターゲットオブジェクトを別々に分割し、相互作用におけるそれらの非対称的な役割を反映する必要がある。
本稿では,127K以上のアノテート表現を持つ大規模データセットであるInterRVOS-127Kについて述べる。
論文 参考訳(メタデータ) (2025-06-03T01:16:13Z) - CTRL-O: Language-Controllable Object-Centric Visual Representation Learning [30.218743514199016]
オブジェクト中心表現学習は、視覚シーンを「スロット」または「オブジェクトファイル」と呼ばれる固定サイズのベクトルに分解することを目的としている。
現在のオブジェクト中心モデルは、ユーザがどのオブジェクトが表現されているかをガイドすることなく、事前に考えられたオブジェクトの理解に基づいて表現を学習する。
言語記述の条件付けによるスロット表現に対するユーザ指向制御のための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:53:50Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。
本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。
これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文 参考訳(メタデータ) (2020-07-29T06:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。