Fugu-MT 論文翻訳(概要): A General One-Shot Multimodal Active Perception Framework for Robotic Manipulation: Learning to Predict Optimal Viewpoint

論文の概要: A General One-Shot Multimodal Active Perception Framework for Robotic Manipulation: Learning to Predict Optimal Viewpoint

arxiv url: http://arxiv.org/abs/2601.13639v1
Date: Tue, 20 Jan 2026 06:12:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.859073
Title: A General One-Shot Multimodal Active Perception Framework for Robotic Manipulation: Learning to Predict Optimal Viewpoint
Title（参考訳）: ロボットマニピュレーションのための汎用的なワンショット・マルチモーダルアクティブ・パーセプション・フレームワーク:最適視点の学習
Authors: Deyun Qin, Zezhi Liu, Hanqian Luo, Xiao Liang, Yongchun Fang,
Abstract要約: ロボット操作のための汎用的なワンショットマルチモーダル能動認識フレームワークを提案する。このフレームワークは、最適な視点の直接推測を可能にし、データ収集パイプラインと最適な視点予測ネットワークから構成される。その結果, フレームワークによって導かれる能動的知覚は, 把握成功率を著しく向上させることがわかった。
参考スコア（独自算出の注目度）: 15.654641113631333
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Active perception in vision-based robotic manipulation aims to move the camera toward more informative observation viewpoints, thereby providing high-quality perceptual inputs for downstream tasks. Most existing active perception methods rely on iterative optimization, leading to high time and motion costs, and are tightly coupled with task-specific objectives, which limits their transferability. In this paper, we propose a general one-shot multimodal active perception framework for robotic manipulation. The framework enables direct inference of optimal viewpoints and comprises a data collection pipeline and an optimal viewpoint prediction network. Specifically, the framework decouples viewpoint quality evaluation from the overall architecture, supporting heterogeneous task requirements. Optimal viewpoints are defined through systematic sampling and evaluation of candidate viewpoints, after which large-scale training datasets are constructed via domain randomization. Moreover, a multimodal optimal viewpoint prediction network is developed, leveraging cross-attention to align and fuse multimodal features and directly predict camera pose adjustments. The proposed framework is instantiated in robotic grasping under viewpoint-constrained environments. Experimental results demonstrate that active perception guided by the framework significantly improves grasp success rates. Notably, real-world evaluations achieve nearly double the grasp success rate and enable seamless sim-to-real transfer without additional fine-tuning, demonstrating the effectiveness of the proposed framework.
Abstract（参考訳）: 視覚に基づくロボット操作におけるアクティブな認識は、より情報的な観察視点に向けてカメラを移動させることを目的としており、下流のタスクに対して高品質な知覚入力を提供する。既存の能動知覚法の多くは反復的最適化に依存しており、高い時間と運動コストをもたらし、伝達可能性を制限するタスク固有の目的と密接に結びついている。本稿では,ロボット操作のための汎用的なワンショットマルチモーダル能動認識フレームワークを提案する。このフレームワークは、最適な視点の直接推測を可能にし、データ収集パイプラインと最適な視点予測ネットワークから構成される。特に、このフレームワークは、全体アーキテクチャから視点品質評価を分離し、異種タスク要求をサポートします。最適視点は、候補視点の体系的なサンプリングと評価によって定義され、その後ドメインランダム化によって大規模トレーニングデータセットが構築される。さらに、マルチモーダルな特徴の整合と融合、カメラポーズの調整を直接予測するために、クロスアテンションを活用するマルチモーダル最適視点予測ネットワークを開発した。提案手法は、視点制約環境下でのロボットの把握においてインスタンス化される。実験結果から, フレームワークによって導かれる能動的知覚は, 把握成功率を著しく向上させることが示された。特に、実世界の評価は、把握成功率をほぼ2倍にし、追加の微調整なしでシームレスなsim-to-real転送を可能にし、提案フレームワークの有効性を実証する。

関連論文リスト

Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は自律運転には不可欠です現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-07T02:05:12Z)
I-Perceive: A Foundation Model for Active Perception with Language Instructions [41.67607728608853]
I-Perceiveは,自然言語命令に基づく能動的知覚の基礎モデルである。 I-Perceiveは、画像ベースのシーンコンテキストに基づいて、オープンな言語命令に従うカメラビューを予測する。実験により、I-Perceiveは、生成したカメラビューの予測精度とインストラクションの両方において、最先端のVLMを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2026-02-28T11:38:56Z)
ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。 12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文参考訳（メタデータ） (2025-06-02T04:23:21Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Semantic-aware Next-Best-View for Multi-DoFs Mobile System in Search-and-Acquisition based Visual Perception [20.480581428768854]
可視性ゲインとセマンティックゲインの両方を統一形式で統合した新しい情報ゲインを定式化し、セマンティック・アウェアのNext-Best-Viewを選択する。提案手法の性能を評価するために, 視点指向性や関心領域(ROI)-完全再構成ボリューム比など, 意味論的に関連するいくつかの再現指標を紹介した。
論文参考訳（メタデータ） (2024-04-25T11:01:40Z)
Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文参考訳（メタデータ） (2023-01-14T09:43:23Z)
Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文参考訳（メタデータ） (2022-07-28T21:09:31Z)
Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文参考訳（メタデータ） (2021-04-15T17:59:32Z)
Simultaneous View and Feature Selection for Collaborative Multi-Robot Perception [9.266151962328548]
協調的マルチロボット認識は、環境の複数のビューを提供する。これらの複数の観測は、正確な認識のためにインテリジェントに融合する必要があります。ビュー選択,特徴選択,オブジェクト認識を同時に統合する,協調型マルチロボット認識に対する新しいアプローチを提案する。
論文参考訳（メタデータ） (2020-12-17T00:01:05Z)
Optimization-Inspired Learning with Architecture Augmentations and Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文参考訳（メタデータ） (2020-12-10T03:24:53Z)
Robust Ego and Object 6-DoF Motion Estimation and Tracking [5.162070820801102]
本稿では,動的多体視覚計測における高精度な推定と一貫した追跡性を実現するためのロバストな解を提案する。セマンティック・インスタンスレベルのセグメンテーションと正確な光フロー推定の最近の進歩を活用して、コンパクトで効果的なフレームワークを提案する。追従点の品質と運動推定精度を向上させる新しい定式化SE(3)運動と光流が導入された。
論文参考訳（メタデータ） (2020-07-28T05:12:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。