論文の概要: Orient Anything V2: Unifying Orientation and Rotation Understanding
- arxiv url: http://arxiv.org/abs/2601.05573v1
- Date: Fri, 09 Jan 2026 06:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.87232
- Title: Orient Anything V2: Unifying Orientation and Rotation Understanding
- Title(参考訳): Orient Anything V2: オリエンテーションとローテーション理解の統一
- Authors: Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, HengShuang Zhao, Zhou Zhao,
- Abstract要約: Orient Anything V2は、オブジェクト3Dの向きと回転を一対または一対の画像から統一的に理解するための拡張モデルである。
V2はこの能力を拡張し、様々な回転対称性を持つ物体を扱い、相対回転を直接推定する。
オブジェクト指向推定,6DoFポーズ推定,および11の広く使用されているベンチマークにおけるオブジェクト対称性認識における最先端のゼロショット性能を実現する。
- 参考スコア(独自算出の注目度): 106.90704703054115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents Orient Anything V2, an enhanced foundation model for unified understanding of object 3D orientation and rotation from single or paired images. Building upon Orient Anything V1, which defines orientation via a single unique front face, V2 extends this capability to handle objects with diverse rotational symmetries and directly estimate relative rotations. These improvements are enabled by four key innovations: 1) Scalable 3D assets synthesized by generative models, ensuring broad category coverage and balanced data distribution; 2) An efficient, model-in-the-loop annotation system that robustly identifies 0 to N valid front faces for each object; 3) A symmetry-aware, periodic distribution fitting objective that captures all plausible front-facing orientations, effectively modeling object rotational symmetry; 4) A multi-frame architecture that directly predicts relative object rotations. Extensive experiments show that Orient Anything V2 achieves state-of-the-art zero-shot performance on orientation estimation, 6DoF pose estimation, and object symmetry recognition across 11 widely used benchmarks. The model demonstrates strong generalization, significantly broadening the applicability of orientation estimation in diverse downstream tasks.
- Abstract(参考訳): 本研究は,物体の3次元配向と回転の統一的理解のための基礎モデルであるOrient Anything V2を提案する。
単一の一意の前面による配向を定義するオリエント・アプライジング V1 上に構築され、V2 はこの能力を拡張して、様々な回転対称性を持つ物体を扱い、相対回転を直接推定する。
これらの改善は4つの重要なイノベーションによって実現されます。
1) 生成モデルにより合成されたスケーラブルな3D資産は、広範囲のカテゴリのカバー範囲とデータのバランスの取れた分散を確保する。
2) 各対象に対して,0対Nの有効前面を頑健に識別する,効率的かつモデル・イン・ザ・ループアノテーションシステム
3) 対象の回転対称性を効果的にモデル化し、すべての可塑性面の向きを捕捉する、対称性を意識した周期分布適合目的
4)相対オブジェクトの回転を直接予測するマルチフレームアーキテクチャ。
大規模な実験により、Orient Anything V2は、広く使用されている11のベンチマークにおいて、方向推定、6DoFポーズ推定、オブジェクト対称性認識において最先端のゼロショット性能を達成することが示された。
このモデルは強力な一般化を示し、様々な下流タスクにおける配向推定の適用性を著しく拡張する。
関連論文リスト
- Orientation Matters: Making 3D Generative Models Orientation-Aligned [39.941774172257105]
既存の3D生成モデルは、一貫性のないトレーニングデータのために、しばしば不整合結果を生成する。
本稿では,カテゴリ毎に一貫した配向を持つ3次元オブジェクトを生成する3次元オブジェクト生成タスクについて紹介する。
多視点拡散に基づく2つの代表的3次元生成モデルと3次元変分オートエンコーダフレームワークを微調整し、直感的に整列したオブジェクトを生成する。
論文 参考訳(メタデータ) (2025-06-10T09:54:37Z) - Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks [17.357441373079382]
本稿では,オブジェクト指向認識を主評価対象とするベンチマークであるDORI(Discriminative Orientation Reasoning Intelligence)を紹介する。
DORIは、正面アライメント、回転変換、相対方向関係、標準方向理解の4つの次元を評価する。
最先端の視覚言語モデル15について評価した結果,限界が明らかとなった。
DORIは、ロボット制御の改善、3Dシーン再構築、物理的環境における人間とAIの相互作用に影響を及ぼす。
論文 参考訳(メタデータ) (2025-05-27T18:22:44Z) - Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。
3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。
本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:58:43Z) - GRA: Detecting Oriented Objects through Group-wise Rotating and Attention [64.21917568525764]
GRA(Group-wise Rotating and Attention)モジュールは、オブジェクト指向オブジェクト検出のためのバックボーンネットワークにおける畳み込み操作を置き換えるために提案されている。
GRAは、グループワイド回転(Group-wise Rotating)とグループワイド注意(Group-wise Attention)という2つの重要なコンポーネントを含む、さまざまな向きのオブジェクトのきめ細かい特徴を適応的にキャプチャすることができる。
GRAはDOTA-v2.0ベンチマークで新しい最先端(SOTA)を実現し、以前のSOTA法と比較してパラメータを50%近く削減した。
論文 参考訳(メタデータ) (2024-03-17T07:29:32Z) - VI-Net: Boosting Category-level 6D Object Pose Estimation via Learning
Decoupled Rotations on the Spherical Representations [55.25238503204253]
作業を容易にするために,VI-Netと呼ばれる新しい回転推定ネットワークを提案する。
球面信号を処理するために、SPAtial Spherical Convolutionの新たな設計に基づいて、球面特徴ピラミッドネットワークを構築する。
ベンチマークデータセットの実験により,提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-08-19T05:47:53Z) - Category-Level 6D Object Pose Estimation with Flexible Vector-Based
Rotation Representation [51.67545893892129]
モノクロRGB-D画像からカテゴリレベルの6次元ポーズとサイズ推定のための新しい3次元グラフ畳み込みに基づくパイプラインを提案する。
まず,3次元グラフ畳み込みを用いた向き対応オートエンコーダの設計を行った。
そして, 回転情報を潜在特徴から効率的に復号化するために, フレキシブルなベクトルベースデコンポーザブルな回転表現を設計する。
論文 参考訳(メタデータ) (2022-12-09T02:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。