Fugu-MT 論文翻訳(概要): Single-View Scene Point Cloud Human Grasp Generation

論文の概要: Single-View Scene Point Cloud Human Grasp Generation

arxiv url: http://arxiv.org/abs/2404.15815v1
Date: Wed, 24 Apr 2024 11:36:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 19:20:39.620442
Title: Single-View Scene Point Cloud Human Grasp Generation
Title（参考訳）: 単一視点Scene Point Cloud Human Grasp Generation
Authors: Yan-Kang Wang, Chengyi Xing, Yi-Lin Wei, Xiao-Ming Wu, Wei-Shi Zheng,
Abstract要約: そこで本研究では,一視点のシーンポイント・クラウドをベースとした,人間のつかみを生成する新しいタスクについて検討する。我々はS2HGraspという2つの重要なモジュールからなるフレームワークを紹介した。グローバルパーセプションモジュールは部分的なオブジェクトポイントの雲をグローバルに知覚し、DiffuGraspモジュールはシーンポイントを含む複雑な入力に基づいて高品質な人間の握りを生成するように設計されている。実験により,S2HGraspはシーンポイントによらず自然の人間のつかみを生成できるだけでなく,手と物体の見えない部分の侵入を効果的に防止できることが示された。
参考スコア（独自算出の注目度）: 28.94445581492162
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we explore a novel task of generating human grasps based on single-view scene point clouds, which more accurately mirrors the typical real-world situation of observing objects from a single viewpoint. Due to the incompleteness of object point clouds and the presence of numerous scene points, the generated hand is prone to penetrating into the invisible parts of the object and the model is easily affected by scene points. Thus, we introduce S2HGrasp, a framework composed of two key modules: the Global Perception module that globally perceives partial object point clouds, and the DiffuGrasp module designed to generate high-quality human grasps based on complex inputs that include scene points. Additionally, we introduce S2HGD dataset, which comprises approximately 99,000 single-object single-view scene point clouds of 1,668 unique objects, each annotated with one human grasp. Our extensive experiments demonstrate that S2HGrasp can not only generate natural human grasps regardless of scene points, but also effectively prevent penetration between the hand and invisible parts of the object. Moreover, our model showcases strong generalization capability when applied to unseen objects. Our code and dataset are available at https://github.com/iSEE-Laboratory/S2HGrasp.
Abstract（参考訳）: 本研究では,一つの視点から物体を観察する典型的な現実の状況を,より正確に反映した,一視点のシーンポイント雲に基づく人間のつかみを生成する新しい課題について検討する。オブジェクト・ポイント・クラウドの不完全性や多数のシーン・ポイントの存在により、生成した手はオブジェクトの見えない部分に侵入しやすくなり、シーン・ポイントの影響を受けやすい。そこで我々は,S2HGraspという2つの重要なモジュールからなるフレームワークを紹介した。グローバルパーセプションモジュールは部分的オブジェクトポイントの雲をグローバルに知覚し,DiffuGraspモジュールはシーンポイントを含む複雑な入力に基づいて高品質な人間の把握を生成するように設計されている。さらに,S2HGDデータセットを導入し,1,668個のユニークなオブジェクトからなる,約99,000個の単一オブジェクトのシーンポイントクラウドから構成した。我々の広範な実験により、S2HGraspはシーンポイントによらず自然の人間のつかみを生成できるだけでなく、手と物体の見えない部分の侵入を効果的に防止できることが示された。さらに,本モデルでは,目に見えない物体に適用した場合に,強い一般化能力を示す。私たちのコードとデータセットはhttps://github.com/iSEE-Laboratory/S2HGrasp.orgで公開されています。

関連論文リスト

Object segmentation in the wild with foundation models: application to vision assisted neuro-prostheses for upper limbs [2.7554193753662015]
本研究では,多種多様な対象に対して訓練された基礎モデルを用いて,日常的な対象を含む特定のイメージを微調整することなく,対象のセグメンテーションを行うことができるかどうかを検討する。本稿では,視線修正に基づくプロンプト生成手法を提案し,セグメンテーションシナリオにおけるセグメンション・アロシング・モデル(SAM)を導出する。 IoUセグメンテーションの品質指標は, 実世界のグラスピング・イン・ザ・ワイヤードコーパスの課題データから最大0.01ポイント向上した。
論文参考訳（メタデータ） (2025-07-24T15:40:44Z)
You Only Estimate Once: Unified, One-stage, Real-Time Category-level Articulated Object 6D Pose Estimation for Robotic Grasping [119.41166438439313]
YOEOは、エンドツーエンドでインスタンスセグメンテーションとNPCS表現を出力する単一ステージのメソッドである。我々は、統一ネットワークを使用してポイントワイズセマンティックラベルとセントロイドオフセットを生成し、同じパートインスタンスのポイントが同じセントロイドに投票できるようにする。また,合成学習したモデルを実環境に展開し,200Hzでリアルタイムな視覚フィードバックを提供する。
論文参考訳（メタデータ） (2025-06-06T03:49:20Z)
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting [59.830657530592255]
Amodally for Patterns Through Unseen Regions (CAPTURe)は、視覚言語モデルを評価するためのテストベッドである。 CAPTUReでは、4つの強力な視覚言語モデルを評価し、隠蔽パターンと隠蔽パターンの両方でモデルがカウントできないことを発見した。
論文参考訳（メタデータ） (2025-04-21T23:38:43Z)
Surface-SOS: Self-Supervised Object Segmentation via Neural Surface Representation [29.297581094153166]
Self-supervised Object Function (SOS) は、アノテーションなしでオブジェクトをセグメントすることを目的としている。マルチカメラ入力の条件下では、各ビューにおける構造的、テクスチャ的、幾何学的整合性を利用して、きめ細かいオブジェクトセグメンテーションを実現することができる。本研究では,表面表現に基づく自己監督型Blended Object (Surface-SOS) を提案する。
論文参考訳（メタデータ） (2025-01-17T04:14:09Z)
Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文参考訳（メタデータ） (2024-07-22T16:22:28Z)
Self-supervised 3D Point Cloud Completion via Multi-view Adversarial Learning [61.14132533712537]
我々は、オブジェクトレベルとカテゴリ固有の幾何学的類似性の両方を効果的に活用するフレームワークであるMAL-SPCを提案する。私たちのMAL-SPCは3Dの完全な監視を一切必要とせず、各オブジェクトに1つの部分点クラウドを必要とするだけです。
論文参考訳（メタデータ） (2024-07-13T06:53:39Z)
AnyDoor: Zero-shot Object-level Image Customization [63.44307304097742]
ユーザが指定した場所の新しいシーンにターゲットオブジェクトをテレポートする機能を備えた拡散ベースのイメージジェネレータであるAnyDoorを紹介する。我々のモデルは1回のみ訓練され、推論段階では多様なオブジェクトとシーンの組み合わせに懸命に一般化される。
論文参考訳（メタデータ） (2023-07-18T17:59:02Z)
HOSNeRF: Dynamic Human-Object-Scene Neural Radiance Fields from a Single Video [24.553659249564852]
HOSNeRFは、単一のモノクラーインザワイルドビデオから、ダイナミックな人間オブジェクトシーンのための神経放射場を再構成する。本手法は,任意のフレームで映像をパージングし,任意の視点からシーンの詳細をレンダリングする。
論文参考訳（メタデータ） (2023-04-24T17:21:49Z)
OGC: Unsupervised 3D Object Segmentation from Rigid Dynamics of Point Clouds [4.709764624933227]
OGCと呼ばれる最初の教師なしの手法を提案し、同時に複数の3Dオブジェクトを1つの前方通過で識別する。提案手法を5つのデータセット上で広範囲に評価し,オブジェクト部分のインスタンスセグメンテーションにおいて優れた性能を示す。
論文参考訳（メタデータ） (2022-10-10T07:01:08Z)
Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文参考訳（メタデータ） (2022-04-04T03:09:20Z)
3D Object Classification on Partial Point Clouds: A Practical Perspective [91.81377258830703]
点雲は3次元オブジェクト分類において一般的な形状表現である。本稿では,任意のポーズの下でオブジェクトインスタンスの部分点雲を分類する実践的な設定を提案する。本稿では,アライメント分類手法による新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-18T04:00:56Z)
Global-Local Bidirectional Reasoning for Unsupervised Representation Learning of 3D Point Clouds [109.0016923028653]
局所構造とグローバル形状の双方向推論による点雲表現を人間の監督なしに学習する。本研究では, 実世界の3次元オブジェクト分類データセットにおいて, 教師なしモデルが最先端の教師付き手法を超越していることを示す。
論文参考訳（メタデータ） (2020-03-29T08:26:08Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。