論文の概要: Thinking in 360°: Humanoid Visual Search in the Wild
- arxiv url: http://arxiv.org/abs/2511.20351v2
- Date: Wed, 26 Nov 2025 05:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 14:46:34.515667
- Title: Thinking in 360°: Humanoid Visual Search in the Wild
- Title(参考訳): 360度で考える:野生のヒューマノイドビジュアルサーチ
- Authors: Heyang Yu, Yinan Han, Xiangyu Zhang, Baiqiao Yin, Bowen Chang, Xiangyu Han, Xinhao Liu, Jing Zhang, Marco Pavone, Chen Feng, Saining Xie, Yiming Li,
- Abstract要約: ヒトは視覚情報を360度で効率的に探索するために頭部(脳運動)と眼(眼運動)の相乗的制御に依存している。
360パノラマ画像で表現された没入型世界において,ヒューマノイドエージェントが頭部を積極的に回転させて物体や経路を探索するヒューマノイドビジュアルサーチを提案する。
我々の実験は、最上位のプロプライエタリモデルでさえ、オブジェクトとパスの検索で30%しか成功していないことを最初に明らかにした。
- 参考スコア(独自算出の注目度): 52.29500214210115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans rely on the synergistic control of head (cephalomotor) and eye (oculomotor) to efficiently search for visual information in 360°. However, prior approaches to visual search are limited to a static image, neglecting the physical embodiment and its interaction with the 3D world. How can we develop embodied visual search agents as efficient as humans while bypassing the constraints imposed by real-world hardware? To this end, we propose humanoid visual search where a humanoid agent actively rotates its head to search for objects or paths in an immersive world represented by a 360° panoramic image. To study visual search in visually-crowded real-world scenarios, we build H* Bench, a new benchmark that moves beyond household scenes to challenging in-the-wild scenes that necessitate advanced visual-spatial reasoning capabilities, such as transportation hubs, large-scale retail spaces, urban streets, and public institutions. Our experiments first reveal that even top-tier proprietary models falter, achieving only ~30% success in object and path search. We then use post-training techniques to enhance the open-source Qwen2.5-VL, increasing its success rate by over threefold for both object search (14.83% to 47.38%) and path search (6.44% to 24.94%). Notably, the lower ceiling of path search reveals its inherent difficulty, which we attribute to the demand for sophisticated spatial commonsense. Our results not only show a promising path forward but also quantify the immense challenge that remains in building MLLM agents that can be seamlessly integrated into everyday human life.
- Abstract(参考訳): ヒトは視覚情報を360度で効率的に探索するために頭部(脳運動)と眼(眼運動)の相乗的制御に依存している。
しかし,従来の視覚探索手法は静的な画像に限られており,身体的具体化や3次元世界との相互作用は無視されている。
実世界のハードウェアが課す制約を回避しつつ、人間のように効果的に体現されたビジュアルサーチエージェントを開発するにはどうすればいいのか?
そこで本研究では,ヒューマノイドエージェントが頭部を積極的に回転させて,360度パノラマ画像で表される没入型世界の物体や経路を探索するヒューマノイドビジュアルサーチを提案する。
視覚的に密集した現実世界のシナリオで視覚的な検索を研究するために、私たちはH* Benchという新しいベンチマークを構築しました。
我々の実験は、最上位のプロプライエタリモデルでさえ、オブジェクトとパスの検索でわずか30%の成功しか達成していないことを最初に明らかにした。
次に、オープンソースのQwen2.5-VLを強化するためにポストトレーニング技術を使用し、オブジェクトサーチ(14.83%から47.38%)とパスサーチ(6.44%から24.94%)のいずれにおいても、成功率を3倍以上に向上させた。
特に、経路探索の低い天井は、その固有の難しさを明らかにしており、これは洗練された空間常識の需要によるものである。
我々の結果は、将来性のある道を示すだけでなく、日常の生活にシームレスに統合できるMLLMエージェントの構築における大きな課題を定量化します。
関連論文リスト
- FlySearch: Exploring how vision-language models explore [5.7210882663967615]
複雑な場面でオブジェクトを検索してナビゲートするための3D,屋外,環境であるFlySearchを紹介した。
我々は最先端のビジョン・ランゲージ・モデル(VLM)が、最も単純な探索作業でさえ確実に解決できないことを観察する。
我々は、視覚からコンテキスト誤解、タスク計画失敗に至るまで、中心的な原因のセットを特定し、それらの一部が微調整によって対処可能であることを示す。
論文 参考訳(メタデータ) (2025-06-03T14:03:42Z) - HINT: Learning Complete Human Neural Representations from Limited Viewpoints [69.76947323932107]
我々は、限られた視野角から詳細な人間のモデルを学習できるNeRFベースのアルゴリズムを提案する。
その結果,数個の視角からでも完全な人間の再構築が可能となり,性能は15%以上向上した。
論文 参考訳(メタデータ) (2024-05-30T05:43:09Z) - MVHumanNet: A Large-scale Dataset of Multi-view Daily Dressing Human
Captures [44.172804112944625]
MVHumanNetは4,500人の身元からなる多視点人間の行動系列からなるデータセットである。
我々のデータセットには、人のマスク、カメラパラメータ、2Dおよび3Dキーポイント、SMPL/SMPLXパラメータ、および対応するテキスト記述を含む、9000の日次服、6万のモーションシーケンス、645万の豊富なアノテーションが含まれています。
論文 参考訳(メタデータ) (2023-12-05T18:50:12Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - RenderMe-360: A Large Digital Asset Library and Benchmarks Towards
High-fidelity Head Avatars [157.82758221794452]
RenderMe-360は、頭部アバター研究の進歩を促進するための総合的な4次元人間の頭部データセットである。
そこには大量のデータ資産があり、合計で243万あまりのヘッドフレームと、500の異なるアイデンティティから8万件のビデオシーケンスがある。
データセットに基づいて、頭部アバター研究のための総合的なベンチマークを構築し、5つの主要なタスクで16の最先端の手法を実行した。
論文 参考訳(メタデータ) (2023-05-22T17:54:01Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - Perceiving 3D Human-Object Spatial Arrangements from a Single Image in
the Wild [96.08358373137438]
本研究では,世界規模で一貫した3Dシーンにおいて,人間や物体の空間的配置や形状を推定する手法を提案する。
本手法は,シーンレベルやオブジェクトレベルの3D監視を必要とせず,データセット上で動作させる。
論文 参考訳(メタデータ) (2020-07-30T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。