論文の概要: OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed
Reality
- arxiv url: http://arxiv.org/abs/2401.08973v1
- Date: Wed, 17 Jan 2024 04:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:01:39.471747
- Title: OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed
Reality
- Title(参考訳): OCTO+:複合現実感におけるオープン語彙オブジェクトの自動配置のためのスイート
- Authors: Aditya Sharma, Luke Yoffe, Tobias H\"ollerer
- Abstract要約: オープン語彙視覚言語モデルにおける最近の進歩を利用して, オブジェクトの自動配置法をいくつか導入し, 評価する。
OCTO+は、オブジェクトを70%以上の有効領域に配置し、さまざまなメトリクスで他のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 3.469644923522024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One key challenge in Augmented Reality is the placement of virtual content in
natural locations. Most existing automated techniques can only work with a
closed-vocabulary, fixed set of objects. In this paper, we introduce and
evaluate several methods for automatic object placement using recent advances
in open-vocabulary vision-language models. Through a multifaceted evaluation,
we identify a new state-of-the-art method, OCTO+. We also introduce a benchmark
for automatically evaluating the placement of virtual objects in augmented
reality, alleviating the need for costly user studies. Through this, in
addition to human evaluations, we find that OCTO+ places objects in a valid
region over 70% of the time, outperforming other methods on a range of metrics.
- Abstract(参考訳): Augmented Realityの重要な課題は、自然の場所に仮想コンテンツを置くことだ。
既存の自動化技術のほとんどは、クローズド・ボカブラリーで固定されたオブジェクトセットでのみ機能する。
本稿では,近年のオープン語彙視覚言語モデルによるオブジェクトの自動配置手法を紹介し,評価する。
多面的評価により,新しい最先端手法OCTO+を同定する。
また,拡張現実における仮想物体の位置を自動的に評価するベンチマークも導入し,コストのかかるユーザ研究の必要性を緩和する。
これにより、OCTO+は、人間の評価に加えて、70%以上の有効領域にオブジェクトを配置し、様々な指標で他の手法よりも優れていることが分かる。
関連論文リスト
- Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。
我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。
この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文 参考訳(メタデータ) (2024-10-09T19:37:01Z) - Automatic Scene Generation: State-of-the-Art Techniques, Models, Datasets, Challenges, and Future Prospects [0.94371657253557]
本調査は、機械学習、ディープラーニング、組み込みシステム、自然言語処理(NLP)を活用する技術に焦点を当てる。
モデルを,変分オートエンコーダ(VAE),GAN(Generative Adrial Networks),トランスフォーマー(Transformer),拡散モデル(Diffusion Models)の4つのタイプに分類する。
また、COCO-Stuff、Visual Genome、MS-COCOといった、これらのモデルのトレーニングと評価に欠かせない最も一般的なデータセットについてもレビューする。
論文 参考訳(メタデータ) (2024-09-14T19:09:10Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using
Semantic Understanding in Mixed Reality [3.469644923522024]
拡張現実におけるオブジェクト配置のための新しいオープン語彙法を提案する。
予備的なユーザスタディにおいて、我々の手法は少なくとも人間の57%の時間において人間の専門家と同様に機能することを示した。
論文 参考訳(メタデータ) (2023-12-20T07:34:20Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - Context-Aware Indoor Point Cloud Object Generation through User Instructions [6.398660996031915]
本稿では,その周辺環境とシームレスに統合された点雲オブジェクトを生成することができる,新しいエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。
我々のモデルは、これまで見えなかったオブジェクトレイアウトで新しい環境を作成できるようにすることで、シーン修正に革命をもたらす。
論文 参考訳(メタデータ) (2023-11-26T06:40:16Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Lifelong Ensemble Learning based on Multiple Representations for
Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。
生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。
提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文 参考訳(メタデータ) (2022-05-04T10:29:10Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。