論文の概要: Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks
- arxiv url: http://arxiv.org/abs/2505.21649v4
- Date: Wed, 04 Jun 2025 17:28:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.453343
- Title: Right Side Up? Disentangling Orientation Understanding in MLLMs with Fine-grained Multi-axis Perception Tasks
- Title(参考訳): 右サイドアップ? きめ細かな多軸知覚タスクを有するMLLMにおける遠位方向理解
- Authors: Keanu Nichols, Nazia Tasnim, Yuting Yan, Nicholas Ikechukwu, Elva Zou, Deepti Ghadiyaram, Bryan A. Plummer,
- Abstract要約: 本稿では,オブジェクト指向認識を主評価対象とするベンチマークであるDORI(Discriminative Orientation Reasoning Intelligence)を紹介する。
DORIは、正面アライメント、回転変換、相対方向関係、標準方向理解の4つの次元を評価する。
最先端の視覚言語モデル15について評価した結果,限界が明らかとなった。
DORIは、ロボット制御の改善、3Dシーン再構築、物理的環境における人間とAIの相互作用に影響を及ぼす。
- 参考スコア(独自算出の注目度): 17.357441373079382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object orientation understanding represents a fundamental challenge in visual perception critical for applications like robotic manipulation and augmented reality. Current vision-language benchmarks fail to isolate this capability, often conflating it with positional relationships and general scene understanding. We introduce DORI (Discriminative Orientation Reasoning Intelligence), a comprehensive benchmark establishing object orientation perception as a primary evaluation target. DORI assesses four dimensions of orientation comprehension: frontal alignment, rotational transformations, relative directional relationships, and canonical orientation understanding. Through carefully curated tasks from 11 datasets spanning 67 object categories across synthetic and real-world scenarios, DORI provides insights on how multi-modal systems understand object orientations. Our evaluation of 15 state-of-the-art vision-language models reveals critical limitations: even the best models achieve only 54.2% accuracy on coarse tasks and 33.0% on granular orientation judgments, with performance deteriorating for tasks requiring reference frame shifts or compound rotations. These findings demonstrate the need for dedicated orientation representation mechanisms, as models show systematic inability to perform precise angular estimations, track orientation changes across viewpoints, and understand compound rotations - suggesting limitations in their internal 3D spatial representations. As the first diagnostic framework specifically designed for orientation awareness in multimodal systems, DORI offers implications for improving robotic control, 3D scene reconstruction, and human-AI interaction in physical environments. DORI data: https://huggingface.co/datasets/appledora/DORI-Benchmark
- Abstract(参考訳): オブジェクト指向の理解は、ロボット操作や拡張現実といった応用にとって重要な視覚知覚の基本的な課題である。
現在の視覚言語ベンチマークでは、この機能を分離できず、多くの場合、位置関係と一般的なシーン理解とを混同している。
本稿では、オブジェクト指向認識を主評価対象とする総合的なベンチマークであるDORI(Discriminative Orientation Reasoning Intelligence)を紹介する。
DORIは、正面アライメント、回転変換、相対方向関係、標準方向理解の4つの次元を評価する。
合成シナリオと実世界のシナリオにまたがる67のオブジェクトカテゴリにまたがる11のデータセットから、注意深くキュレートされたタスクを通じて、DORIは、マルチモーダルシステムがオブジェクトの向きをどのように理解するかについての洞察を提供する。
最良モデルでさえ、粗いタスクでは54.2%の精度しか達成せず、粒度の方向判断では33.0%であり、参照フレームシフトや複合回転を必要とするタスクでは性能が劣化する。
これらの知見は, モデルが正確な角度推定を行なえないこと, 視点をまたいだ方向変化の追跡, 複合回転の理解, 内部3次元空間表現の限界を示唆するなど, 専用方向表現機構の必要性を示唆している。
マルチモーダルシステムにおける配向認識に特化した最初の診断フレームワークとして、DORIは、ロボット制御の改善、3Dシーン再構築、物理的環境における人間とAIの相互作用に影響を及ぼす。
DORIデータ:https://huggingface.co/datasets/appledora/DORI-Benchmark
関連論文リスト
- SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation [49.858348469657784]
本稿では,自然言語を用いたオブジェクト指向を参照フレームフリーで定義するセマンティック・オリエンテーションの概念を紹介する。
セマンティック・オリエンテーションをVLMシステムに統合することにより、ロボットは位置制約と向き制約の両方で操作動作を生成できる。
論文 参考訳(メタデータ) (2025-02-18T18:59:02Z) - Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。
3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。
本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:58:43Z) - Is 'Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning [7.911608620021529]
マルチモーダル・大規模言語モデル(MLLM)は、人間とAI技術をマルチモーダル・アプリケーションで結びつける重要なインターフェースとして機能する。
現在のMLLMは、トレーニングデータにおける矛盾した向きアノテーションにより、画像内のオブジェクトの向きを正確に解釈する上で、課題に直面している。
本稿では,MLLMの向き理解とユーザの視点を一致させる,エゴセントリックな命令チューニングを提案する。
論文 参考訳(メタデータ) (2024-11-24T15:07:47Z) - GRA: Detecting Oriented Objects through Group-wise Rotating and Attention [64.21917568525764]
GRA(Group-wise Rotating and Attention)モジュールは、オブジェクト指向オブジェクト検出のためのバックボーンネットワークにおける畳み込み操作を置き換えるために提案されている。
GRAは、グループワイド回転(Group-wise Rotating)とグループワイド注意(Group-wise Attention)という2つの重要なコンポーネントを含む、さまざまな向きのオブジェクトのきめ細かい特徴を適応的にキャプチャすることができる。
GRAはDOTA-v2.0ベンチマークで新しい最先端(SOTA)を実現し、以前のSOTA法と比較してパラメータを50%近く削減した。
論文 参考訳(メタデータ) (2024-03-17T07:29:32Z) - Learning Fine-grained View-Invariant Representations from Unpaired
Ego-Exo Videos via Temporal Alignment [71.16699226211504]
我々は,エゴセントリックな映像とエゴセントリックな映像を時間内に整列させることにより,視点に不変なきめ細かいアクション特徴を学習することを提案する。
そこで本研究では,2つの鍵設計を持つ自己教師型埋め込み手法であるAE2を提案する。
評価のために,エゴ・エクソ・コンテキストにおけるきめ細かい映像理解のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2023-06-08T19:54:08Z) - Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。
我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。
幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文 参考訳(メタデータ) (2022-07-06T12:31:49Z) - Learning Oriented Remote Sensing Object Detection via Naive Geometric
Computing [38.508709334835316]
本稿では,水平提案の回帰,オブジェクト指向提案,物体の回転角を一貫した方法で学習する機構を提案する。
提案するアイデアはシンプルで直感的であり、容易に実装できる。
論文 参考訳(メタデータ) (2021-12-01T13:58:42Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。