論文の概要: TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement
- arxiv url: http://arxiv.org/abs/2601.20208v1
- Date: Wed, 28 Jan 2026 03:12:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.74797
- Title: TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement
- Title(参考訳): TRACER:変形性物体の微細化のためのテクスチュア・ローバスト・アフォーダンス・チェーン
- Authors: Wanjun Jia, Kang Li, Fan Yang, Mengfei Duan, Wenrui Chen, Yiming Jiang, Hui Zhang, Kailun Yang, Zhiyong Li, Yaonan Wang,
- Abstract要約: TRACER は Texture-Robust Affordance Chain-of- Thought with dEformable-object Refinement framework である。
セマンティック推論から外見が損なわれ、物理的に一貫した機能領域の洗練まで、階層横断的なマッピングを提供する。
Fine-AGDDO15データセットと実世界のロボットプラットフォームで実施された実験は、TRACERが精度を著しく向上することを示した。
- 参考スコア(独自算出の注目度): 37.77903164878976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The central challenge in robotic manipulation of deformable objects lies in aligning high-level semantic instructions with physical interaction points under complex appearance and texture variations. Due to near-infinite degrees of freedom, complex dynamics, and heterogeneous patterns, existing vision-based affordance prediction methods often suffer from boundary overflow and fragmented functional regions. To address these issues, we propose TRACER, a Texture-Robust Affordance Chain-of-thought with dEformable-object Refinement framework, which establishes a cross-hierarchical mapping from hierarchical semantic reasoning to appearance-robust and physically consistent functional region refinement. Specifically, a Tree-structured Affordance Chain-of-Thought (TA-CoT) is formulated to decompose high-level task intentions into hierarchical sub-task semantics, providing consistent guidance across various execution stages. To ensure spatial integrity, a Spatial-Constrained Boundary Refinement (SCBR) mechanism is introduced to suppress prediction spillover, guiding the perceptual response to converge toward authentic interaction manifolds. Furthermore, an Interactive Convergence Refinement Flow (ICRF) is developed to aggregate discrete pixels corrupted by appearance noise, significantly enhancing the spatial continuity and physical plausibility of the identified functional regions. Extensive experiments conducted on the Fine-AGDDO15 dataset and a real-world robotic platform demonstrate that TRACER significantly improves affordance grounding precision across diverse textures and patterns inherent to deformable objects. More importantly, it enhances the success rate of long-horizon tasks, effectively bridging the gap between high-level semantic reasoning and low-level physical execution. The source code and dataset will be made publicly available at https://github.com/Dikay1/TRACER.
- Abstract(参考訳): 変形可能な物体のロボット操作における中心的な課題は、複雑な外観とテクスチャのバリエーションの下で、高レベルの意味的指示と物理的相互作用点との整合性にある。
ほぼ無限の自由度、複雑な力学、異種パターンにより、既存の視覚に基づく可測性予測法は境界オーバーフローや断片化された機能領域に悩まされることが多い。
このような問題に対処するため, TRACER は dEformable-object Refinement フレームワークを用いて, 階層的意味論から外見的, 物理的に一貫した機能領域の洗練まで, 階層横断的なマッピングを確立する。
特に、TA-CoT(Tree-structured Affordance Chain-of-Thought)は、ハイレベルなタスク意図を階層的なサブタスクセマンティクスに分解し、さまざまな実行段階にわたって一貫したガイダンスを提供する。
空間的整合性を確保するため、空間制約境界再閉じ込め(SCBR)機構を導入し、実際の相互作用多様体への収束に対する知覚応答を誘導する。
さらに, 対面雑音により劣化した離散画素を集約し, 同定された機能領域の空間的連続性と物理的可視性を著しく高めるために, ICRF (Interactive Convergence Refinement Flow) を開発した。
Fine-AGDDO15データセットと実世界のロボットプラットフォームで実施された大規模な実験により、TRACERは変形可能な物体に固有の様々なテクスチャやパターンにまたがる精度を大幅に向上することが示された。
さらに重要なことは、これは長い水平タスクの成功率を高め、ハイレベルなセマンティック推論と低レベルな物理的実行の間のギャップを効果的に埋める。
ソースコードとデータセットはhttps://github.com/Dikay1/TRACERで公開されている。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - Explainable Neural Inverse Kinematics for Obstacle-Aware Robotic Manipulation: A Comparative Analysis of IKNet Variants [0.28544513613730205]
ディープニューラルネットワークは、低コストのマニピュレータが複雑な軌道をリアルタイムで実行できる地点まで、逆運動学(IK)推論を加速させた。
本研究では,Shapley値属性と物理に基づく障害物回避評価を統合した説明可能性中心ワークフローを提案する。
論文 参考訳(メタデータ) (2025-12-29T09:02:02Z) - Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects [59.51185639557874]
本稿では,任意のRGB画像やテキスト記述から直接音声オブジェクトを合成するフレームワークであるKinematifyを紹介する。
提案手法は, 高DoFオブジェクトに対する運動的トポロジの推測と静的幾何からの関節パラメータの推定という2つの課題に対処する。
論文 参考訳(メタデータ) (2025-11-03T07:21:42Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - DiffRIS: Enhancing Referring Remote Sensing Image Segmentation with Pre-trained Text-to-Image Diffusion Models [9.109484087832058]
DiffRISは、RRSISタスクのための事前訓練されたテキスト-画像拡散モデルのセマンティック理解機能を利用する新しいフレームワークである。
我々のフレームワークは、文脈認識アダプタ(CP-adapter)とクロスモーダル推論デコーダ(PCMRD)の2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2025-06-23T02:38:56Z) - Guiding Human-Object Interactions with Rich Geometry and Relations [21.528466852204627]
既存の手法では、物体の遠心点や人間に最も近い点のような単純化された物体表現に頼り、物理的に可算な運動を達成する。
ROGは、HOIに固有の関係をリッチな幾何学的詳細で表現する新しいフレームワークである。
ROGは, 合成HOIのリアリズム評価と意味的精度において, 最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-03-26T02:57:18Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。