Fugu-MT 論文翻訳(概要): AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow

論文の概要: AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow

arxiv url: http://arxiv.org/abs/2603.07744v1
Date: Sun, 08 Mar 2026 17:39:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.066786
Title: AeroPlace-Flow: Language-Grounded Object Placement for Aerial Manipulators via Visual Foresight and Object Flow
Title（参考訳）: AeroPlace-Flow:視覚的視界と物体の流れによる空中マニピュレータのための言語周囲の物体配置
Authors: Sarthak Mishra, Rishabh Dev Yadav, Naveen Nair, Wei Pan, Spandan Roy,
Abstract要約: AeroPlace-Flowは、言語ベースの空中オブジェクト配置のためのトレーニング不要のフレームワークである。 3次元幾何学的推論と物体の流れで視覚的視界を統一する。事前に定義されたポーズやタスク固有のトレーニングを必要とせずに、実行可能な配置ターゲットを生成する。
参考スコア（独自算出の注目度）: 2.7421027372734823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Precise object placement remains underexplored in aerial manipulation, where most systems rely on predefined target coordinates and focus primarily on grasping and control. Specifying exact placement poses, however, is cumbersome in real-world settings, where users naturally communicate goals through language. In this work, we present AeroPlace-Flow, a training-free framework for language-grounded aerial object placement that unifies visual foresight with explicit 3D geometric reasoning and object flow. Given RGB-D observations of the object and the placement scene, along with a natural language instruction, AeroPlace-Flow first synthesizes a task-complete goal image using image editing models. The imagined configuration is then grounded into metric 3D space through depth alignment and object-centric reasoning, enabling the inference of a collision-aware object flow that transports the grasped object to a language and contact-consistent placement configuration. The resulting motion is executed via standard trajectory tracking for an aerial manipulator. AeroPlace-Flow produces executable placement targets without requiring predefined poses or task-specific training. We validate our approach through extensive simulation and real-world experiments, demonstrating reliable language-conditioned placement across diverse aerial scenarios with an average success rate of 75% on hardware.
Abstract（参考訳）: 多くのシステムは事前に定義された目標座標に依存しており、主に把握と制御に焦点をあてている。しかし、正確な配置のポーズを特定することは、ユーザーが言語を介して自然に目標を伝える現実世界の設定では面倒だ。本研究では,AeroPlace-Flowについて述べる。AeroPlace-Flowは3次元幾何学的推論と物体の流れで視覚的視界を統一する,言語を基盤とした空中物体配置のトレーニングフリーフレームワークである。オブジェクトと配置シーンをRGB-Dで観察すると、自然言語のインストラクションとともに、AeroPlace-Flowはまず画像編集モデルを用いてタスク完全ゴールイメージを合成する。想定された構成は、深さのアライメントとオブジェクト中心の推論を通じてメートル法3D空間にグラウンド化され、把握されたオブジェクトを言語に転送する衝突認識オブジェクトフローと接触一貫性のある配置の設定を推論することができる。結果として生じる動きは、空中マニピュレータの標準軌跡追跡によって実行される。 AeroPlace-Flowは、事前に定義されたポーズやタスク固有のトレーニングを必要とせずに、実行可能な配置ターゲットを生成する。我々は,広範囲なシミュレーションと実世界の実験を通じて,ハードウェア上で平均75%の成功率で,多様な空域シナリオにまたがる言語条件の配置を実証し,本手法の有効性を検証した。

関連論文リスト

VENTURA: Adapting Image Diffusion Models for Unified Task Conditioned Navigation [15.811034169990423]
VENTURAは、インターネットに制約された画像拡散モデルを微調整して経路計画を行う視覚制御ナビゲーションシステムである。軽量な行動閉鎖ポリシーは、これらの視覚計画を実行可能な軌道に置き、自然言語の指示に従うインターフェースを生成する。大規模な実世界の評価において、VENTURAは、オブジェクト到達、障害物回避、地形優先タスクに基づく最先端の基盤モデルよりも優れている。
論文参考訳（メタデータ） (2025-10-01T19:21:28Z)
SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。 SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。 SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-28T20:53:20Z)
TAS: A Transit-Aware Strategy for Embodied Navigation with Non-Stationary Targets [55.09248760290918]
非定常目標を持つ動的シナリオにおけるナビゲーションのための新しいアルゴリズムを提案する。我々の新しいTAS(Transit-Aware Strategy)は、具体化されたナビゲーションポリシーをオブジェクトパス情報で強化する。 TASは、ターゲットルートとルートを同期させるエージェントを報酬することで、非定常環境での性能を改善する。
論文参考訳（メタデータ） (2024-03-14T22:33:22Z)
How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文参考訳（メタデータ） (2023-05-26T13:38:33Z)
Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文参考訳（メタデータ） (2022-03-15T17:59:01Z)
Are We There Yet? Learning to Localize in Embodied Instruction Following [1.7300690315775575]
Action Learning From Realistic Environments and Directives (ALFRED)は、この問題に対する最近提案されたベンチマークである。このタスクの主な課題は、ターゲット位置のローカライズと、視覚的な入力によるナビゲーションである。ナビゲーションサブゴール中のエージェントの視野を複数の視野角で拡張し、各タイムステップでターゲット位置に対する相対的な空間的関係を予測するようにエージェントを訓練します。
論文参考訳（メタデータ） (2021-01-09T21:49:41Z)
ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文参考訳（メタデータ） (2020-11-15T23:30:36Z)
e-TLD: Event-based Framework for Dynamic Object Tracking [23.026432675020683]
本稿では,一般的な追跡条件下での移動イベントカメラを用いた長期オブジェクト追跡フレームワークを提案する。このフレームワークは、オンライン学習を伴うオブジェクトの識別表現を使用し、ビューのフィールドに戻るとオブジェクトを検出し、追跡する。
論文参考訳（メタデータ） (2020-09-02T07:08:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。