Fugu-MT 論文翻訳(概要): Selective Perception for Robot: Task-Aware Attention in Multimodal VLA

論文の概要: Selective Perception for Robot: Task-Aware Attention in Multimodal VLA

arxiv url: http://arxiv.org/abs/2602.15543v1
Date: Tue, 17 Feb 2026 12:48:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:41.510773
Title: Selective Perception for Robot: Task-Aware Attention in Multimodal VLA
Title（参考訳）: ロボットの選択的知覚:マルチモーダルVLAにおけるタスク認識注意
Authors: Young-Chae Son, Jung-Woo Lee, Yoon-Ji Choi, Dae-Kwan Ko, Soo-Chul Lim,
Abstract要約: Vision-Language-Action (VLA) モデルは多視点入力から様々なマルチモーダル信号を統合する。人間の能動知覚の原理に着想を得て,動的情報融合フレームワークを提案する。
参考スコア（独自算出の注目度）: 6.550868784168723
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In robotics, Vision-Language-Action (VLA) models that integrate diverse multimodal signals from multi-view inputs have emerged as an effective approach. However, most prior work adopts static fusion that processes all visual inputs uniformly, which incurs unnecessary computational overhead and allows task-irrelevant background information to act as noise. Inspired by the principles of human active perception, we propose a dynamic information fusion framework designed to maximize the efficiency and robustness of VLA models. Our approach introduces a lightweight adaptive routing architecture that analyzes the current text prompt and observations from a wrist-mounted camera in real-time to predict the task-relevance of multiple camera views. By conditionally attenuating computations for views with low informational utility and selectively providing only essential visual features to the policy network, Our framework achieves computation efficiency proportional to task relevance. Furthermore, to efficiently secure large-scale annotation data for router training, we established an automated labeling pipeline utilizing Vision-Language Models (VLMs) to minimize data collection and annotation costs. Experimental results in real-world robotic manipulation scenarios demonstrate that the proposed approach achieves significant improvements in both inference efficiency and control performance compared to existing VLA models, validating the effectiveness and practicality of dynamic information fusion in resource-constrained, real-time robot control environments.
Abstract（参考訳）: ロボット工学において、多視点入力から多様なマルチモーダル信号を統合するビジョン・ランゲージ・アクション(VLA)モデルが効果的なアプローチとして登場した。しかし、これまでのほとんどの作業では、全ての視覚的な入力を均一に処理する静的融合を採用しており、不要な計算オーバーヘッドを発生させ、タスクに依存しないバックグラウンド情報をノイズとして振る舞うことができる。人間の能動知覚の原理に着想を得て,VLAモデルの効率性とロバスト性を最大化するための動的情報融合フレームワークを提案する。本手法では,複数のカメラビューのタスク関連性を予測するために,手首搭載カメラからの現在のテキストプロンプトと観察をリアルタイムで分析する軽量適応型ルーティングアーキテクチャを提案する。本フレームワークは,低情報ユーティリティのビューに対する計算処理を条件付きで減らし,ポリシネットワークに不可欠な視覚的特徴のみを選択的に提供することにより,タスク関連性に比例した計算効率を実現する。さらに,ルータトレーニングのための大規模アノテーションデータを効率よく確保するために,VLM(Vision-Language Models)を用いた自動ラベリングパイプラインを構築し,データ収集とアノテーションのコストを最小化する。実世界のロボット操作シナリオにおける実験結果から,提案手法は既存のVLAモデルと比較して推論効率と制御性能に大きな改善を達成し,資源制約されたリアルタイムロボット制御環境における動的情報融合の有効性と実用性を検証した。

関連論文リスト

Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文参考訳（メタデータ） (2025-11-26T10:55:07Z)
dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文参考訳（メタデータ） (2025-09-30T02:36:11Z)
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文参考訳（メタデータ） (2024-12-13T18:40:51Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文参考訳（メタデータ） (2024-04-02T13:25:16Z)
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-08-31T06:53:55Z)
Multi-Task Variational Information Bottleneck [8.55293326934818]
マルチタスク学習(MTL)は、機械学習と人工知能において重要な課題である。本稿では、変動情報ボトルネック(VIB)のアーキテクチャに基づくMTLモデルを提案する。敵攻撃下での3つの公開データセットの広範囲な観測により、提案モデルが最先端のアルゴリズムと競合していることが示されている。
論文参考訳（メタデータ） (2020-07-01T09:06:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。