Fugu-MT 論文翻訳(概要): SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

論文の概要: SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

arxiv url: http://arxiv.org/abs/2502.13143v1
Date: Tue, 18 Feb 2025 18:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:09.148888
Title: SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation
Title（参考訳）: SoFar: 言語を囲むオリエンテーションブリッジ - 空間推論とオブジェクト操作
Authors: Zekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi,
Abstract要約: 本稿では,自然言語を用いたオブジェクト指向を参照フレームフリーで定義するセマンティック・オリエンテーションの概念を紹介する。セマンティック・オリエンテーションをVLMシステムに統合することにより、ロボットは位置制約と向き制約の両方で操作動作を生成できる。
参考スコア（独自算出の注目度）: 49.858348469657784
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Spatial intelligence is a critical component of embodied AI, promoting robots to understand and interact with their environments. While recent advances have enhanced the ability of VLMs to perceive object locations and positional relationships, they still lack the capability to precisely understand object orientations-a key requirement for tasks involving fine-grained manipulations. Addressing this limitation not only requires geometric reasoning but also an expressive and intuitive way to represent orientation. In this context, we propose that natural language offers a more flexible representation space than canonical frames, making it particularly suitable for instruction-following robotic systems. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the ''plug-in'' direction of a USB or the ''handle'' direction of a knife). To support this, we construct OrienText300K, a large-scale dataset of 3D models annotated with semantic orientations that link geometric understanding to functional semantics. By integrating semantic orientation into a VLM system, we enable robots to generate manipulation actions with both positional and orientational constraints. Extensive experiments in simulation and real world demonstrate that our approach significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy on Open6DOR and 74.9% accuracy on SIMPLER.
Abstract（参考訳）: 空間知性は、ロボットが環境を理解し、対話することを奨励する、具体化されたAIの重要な構成要素である。近年の進歩は、VLMがオブジェクトの位置や位置関係を知覚する能力を高める一方で、オブジェクトの向きを正確に理解する能力は依然として欠如している。この制限に対処するには、幾何学的推論だけでなく、向きを表す表現的かつ直感的な方法も必要である。この文脈では、自然言語は標準フレームよりもフレキシブルな表現空間を提供し、命令追従ロボットシステムに特に適している。本稿では, 自然言語を用いたオブジェクト指向を参照フレームフリーで定義する意味指向の概念(例えば, USB の 'plug-in' 方向やナイフの 'handle' 方向)を紹介する。これを支援するために,幾何学的理解と機能的意味論を結びつける意味指向を付加した大規模3次元モデルのデータセットであるOrienText300Kを構築した。セマンティック・オリエンテーションをVLMシステムに統合することにより、ロボットは位置制約と向き制約の両方で操作動作を生成できる。シミュレーションと実世界の大規模な実験により,本手法は,Open6DORでは48.7%,SIMPLERでは74.9%の精度でロボット操作能力を大幅に向上することが示された。

関連論文リスト

Towards 3D Object-Centric Feature Learning for Semantic Scene Completion [18.41627244498394]
視覚に基づく3Dセマンティックシーンコンプリート(SSC)は、自動運転の可能性から注目を集めている。シーンを個々のオブジェクトインスタンスに分解するオブジェクト中心の予測フレームワークであるOceanを提案する。その結果,Oceanは17.40点,mIoUスコアは20.28点であった。
論文参考訳（メタデータ） (2025-11-17T06:28:26Z)
Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。 LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文参考訳（メタデータ） (2025-09-09T15:01:28Z)
Orientation Matters: Making 3D Generative Models Orientation-Aligned [39.941774172257105]
既存の3D生成モデルは、一貫性のないトレーニングデータのために、しばしば不整合結果を生成する。本稿では,カテゴリ毎に一貫した配向を持つ3次元オブジェクトを生成する3次元オブジェクト生成タスクについて紹介する。多視点拡散に基づく2つの代表的3次元生成モデルと3次元変分オートエンコーダフレームワークを微調整し、直感的に整列したオブジェクトを生成する。
論文参考訳（メタデータ） (2025-06-10T09:54:37Z)
Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks [17.357441373079382]
本稿では,オブジェクト指向認識を主評価対象とするベンチマークであるDORI(Discriminative Orientation Reasoning Intelligence)を紹介する。 DORIは、正面アライメント、回転変換、相対方向関係、標準方向理解の4つの次元を評価する。最先端の視覚言語モデル15について評価した結果,限界が明らかとなった。 DORIは、ロボット制御の改善、3Dシーン再構築、物理的環境における人間とAIの相互作用に影響を及ぼす。
論文参考訳（メタデータ） (2025-05-27T18:22:44Z)
IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文参考訳（メタデータ） (2025-04-09T12:36:48Z)
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。 3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文参考訳（メタデータ） (2024-12-24T18:58:43Z)
GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。 GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文参考訳（メタデータ） (2024-11-29T11:23:15Z)
Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning [7.911608620021529]
マルチモーダル・大規模言語モデル(MLLM)は、人間とAI技術をマルチモーダル・アプリケーションで結びつける重要なインターフェースとして機能する。現在のMLLMは、トレーニングデータにおける矛盾した向きアノテーションにより、画像内のオブジェクトの向きを正確に解釈する上で、課題に直面している。本稿では,MLLMの向き理解とユーザの視点を一致させる,エゴセントリックな命令チューニングを提案する。
論文参考訳（メタデータ） (2024-11-24T15:07:47Z)
SURDS: Benchmarking Spatial Understanding and Reasoning in Driving Scenarios with Vision Language Models [15.50826328938879]
視覚言語モデル(VLM)の空間的推論能力を評価するためのベンチマークであるSURDSを紹介する。 nuScenesデータセットに基づいて構築されたSURDSは、41,080の視覚要求回答トレーニングインスタンスと9,250の評価サンプルで構成されている。本研究では,空間的に接地された報酬信号を利用した強化学習に基づくアライメント手法を提案する。
論文参考訳（メタデータ） (2024-11-20T08:14:01Z)
HACMan++: Spatially-Grounded Motion Primitives for Manipulation [28.411361363637006]
本稿では,HACMan++における空間的パラメータ化動作プリミティブについて紹介する。環境中の空間的位置にプリミティブを接地することで、オブジェクトの形状を効果的に一般化し、バリエーションを表現できる。提案手法は既存の手法,特に高レベルシーケンシャル推論とオブジェクト一般化の両方を必要とする複雑なシナリオにおいて,優れた性能を発揮する。
論文参考訳（メタデータ） (2024-07-11T15:10:14Z)
GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。 GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文参考訳（メタデータ） (2024-05-27T18:57:18Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。 MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文参考訳（メタデータ） (2024-01-05T13:54:45Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。 3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T09:33:25Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文参考訳（メタデータ） (2021-09-24T17:44:28Z)
Learning Language-Conditioned Robot Behavior from Offline Data and Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文参考訳（メタデータ） (2021-09-02T17:42:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。