論文の概要: DecoDINO: 3D Human-Scene Contact Prediction with Semantic Classification
- arxiv url: http://arxiv.org/abs/2510.23203v1
- Date: Mon, 27 Oct 2025 10:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.524622
- Title: DecoDINO: 3D Human-Scene Contact Prediction with Semantic Classification
- Title(参考訳): DecoDino: セマンティック分類を用いた3次元ヒューマンシーン接触予測
- Authors: Lukas Bierling, Davide Pasero, Fleur Dolmans, Helia Ghasemi, Angelo Broere,
- Abstract要約: Decoのフレームワークをベースとした3分岐ネットワークであるDecoDINOを紹介する。
2つのDINOv2 ViT-g/14エンコーダ、バイアスを減らすためにクラスバランスの損失重み付け、局所推論を改善するためにパッチレベルのクロスアテンションを使用する。
DAMONベンチマークでは、DecoDINOは2値接触F1スコアを7$%の値で上げ、(ii)ジオデシックエラーを半減させ、(iii)オブジェクトレベルのセマンティックラベルによる予測を強化した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate vertex-level contact prediction between humans and surrounding objects is a prerequisite for high fidelity human object interaction models used in robotics, AR/VR, and behavioral simulation. DECO was the first in the wild estimator for this task but is limited to binary contact maps and struggles with soft surfaces, occlusions, children, and false-positive foot contacts. We address these issues and introduce DecoDINO, a three-branch network based on DECO's framework. It uses two DINOv2 ViT-g/14 encoders, class-balanced loss weighting to reduce bias, and patch-level cross-attention for improved local reasoning. Vertex features are finally passed through a lightweight MLP with a softmax to assign semantic contact labels. We also tested a vision-language model (VLM) to integrate text features, but the simpler architecture performed better and was used instead. On the DAMON benchmark, DecoDINO (i) raises the binary-contact F1 score by 7$\%$, (ii) halves the geodesic error, and (iii) augments predictions with object-level semantic labels. Ablation studies show that LoRA fine-tuning and the dual encoders are key to these improvements. DecoDINO outperformed the challenge baseline in both tasks of the DAMON Challenge. Our code is available at https://github.com/DavidePasero/deco/tree/main.
- Abstract(参考訳): 人間と周囲の物体の間の正確な頂点レベルの接触予測は、ロボット工学、AR/VR、行動シミュレーションで使用される高忠実な人間の物体相互作用モデルに必須である。
DECOは、このタスクにおける最初のワイルドな推定装置であったが、二元接触マップに限られており、柔らかい表面、オクルージョン、子供、偽陽性の足の接触に悩まされている。
これらの問題に対処し、DECのフレームワークをベースとした3分岐ネットワークであるDecoDINOを紹介する。
2つのDINOv2 ViT-g/14エンコーダ、バイアスを減らすためにクラスバランスの損失重み付け、局所推論を改善するためにパッチレベルのクロスアテンションを使用する。
頂点機能は最終的に、セマンティックコンタクトラベルを割り当てるソフトマックスを備えた軽量MLPに渡される。
テキスト機能を統合するために視覚言語モデル(VLM)もテストしましたが、より単純なアーキテクチャの方が性能が良く、代わりに使われました。
DAMONベンチマークについて
(i) バイナリ互換 F1 スコアを 7$\%$ に上げる。
(二)測地誤差を半減し、
(iii)オブジェクトレベルのセマンティックラベルによる予測を強化する。
アブレーション研究では、LoRAファインチューニングとデュアルエンコーダがこれらの改善の鍵であることが示されている。
デコディーノは、DAMONチャレンジの両タスクにおいて、チャレンジベースラインを上回った。
私たちのコードはhttps://github.com/DavidePasero/deco/tree/mainで利用可能です。
関連論文リスト
- Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - TARGO: Benchmarking Target-driven Object Grasping under Occlusions [39.970680093124145]
我々はまず,Occlusionsの下でTARGOという,TARget駆動型グラフ作成のための新しいベンチマークデータセットを構築した。
我々は5つのグリップモデルを評価し、現在のSOTAモデルでさえ、閉塞レベルが大きくなると悩むことを見出した。
本稿では, TARGO-Net と呼ばれる形状完備化モジュールを含む変圧器を用いた把握モデルを提案する。
論文 参考訳(メタデータ) (2024-07-08T17:47:45Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Enhancing Cross-Dataset Performance of Distracted Driving Detection With Score Softmax Classifier And Dynamic Gaussian Smoothing Supervision [6.891556476231427]
ディープニューラルネットワークは、車内ドライバのリアルタイム監視を可能にし、邪魔や疲労、潜在的な危険のタイムリーな予測を容易にする。
最近の研究では、限られたデータサンプルとバックグラウンドノイズにより、信頼性の低いクロスデータセットドライバの動作認識が明らかにされている。
Score-Softmax分類器を提案し、カテゴリ独立性を高めてモデル過信を低減する。
論文 参考訳(メタデータ) (2023-10-08T15:28:01Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Self-supervised Human Mesh Recovery with Cross-Representation Alignment [20.69546341109787]
自己教師付きヒューマンメッシュリカバリ手法は、3Dアノテーション付きベンチマークデータセットの可用性と多様性が制限されているため、一般化性が低い。
頑健だがスパースな表現(2Dキーポイント)からの相補的情報を利用した相互表現アライメントを提案する。
この適応的相互表現アライメントは、偏差から明示的に学習し、相補的な情報(疎表現からの豊かさと密表現からの堅牢さ)をキャプチャする。
論文 参考訳(メタデータ) (2022-09-10T04:47:20Z) - Improving Top-K Decoding for Non-Autoregressive Semantic Parsing via
Intent Conditioning [11.307865386100993]
本稿では,デコーダに意図条件を導入する新しいNARセマンティクスを提案する。
最上位のインテントがパースの構文とセマンティクスを制御しているため、インテント条件付けによりビームサーチをよりよく制御できる。
対話型SPデータセットであるTOPとTOPv2で提案したNARを評価する。
論文 参考訳(メタデータ) (2022-04-14T04:06:39Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。