論文の概要: OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed
Reality
- arxiv url: http://arxiv.org/abs/2401.08973v1
- Date: Wed, 17 Jan 2024 04:52:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:01:39.471747
- Title: OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed
Reality
- Title(参考訳): OCTO+:複合現実感におけるオープン語彙オブジェクトの自動配置のためのスイート
- Authors: Aditya Sharma, Luke Yoffe, Tobias H\"ollerer
- Abstract要約: オープン語彙視覚言語モデルにおける最近の進歩を利用して, オブジェクトの自動配置法をいくつか導入し, 評価する。
OCTO+は、オブジェクトを70%以上の有効領域に配置し、さまざまなメトリクスで他のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 3.469644923522024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One key challenge in Augmented Reality is the placement of virtual content in
natural locations. Most existing automated techniques can only work with a
closed-vocabulary, fixed set of objects. In this paper, we introduce and
evaluate several methods for automatic object placement using recent advances
in open-vocabulary vision-language models. Through a multifaceted evaluation,
we identify a new state-of-the-art method, OCTO+. We also introduce a benchmark
for automatically evaluating the placement of virtual objects in augmented
reality, alleviating the need for costly user studies. Through this, in
addition to human evaluations, we find that OCTO+ places objects in a valid
region over 70% of the time, outperforming other methods on a range of metrics.
- Abstract(参考訳): Augmented Realityの重要な課題は、自然の場所に仮想コンテンツを置くことだ。
既存の自動化技術のほとんどは、クローズド・ボカブラリーで固定されたオブジェクトセットでのみ機能する。
本稿では,近年のオープン語彙視覚言語モデルによるオブジェクトの自動配置手法を紹介し,評価する。
多面的評価により,新しい最先端手法OCTO+を同定する。
また,拡張現実における仮想物体の位置を自動的に評価するベンチマークも導入し,コストのかかるユーザ研究の必要性を緩和する。
これにより、OCTO+は、人間の評価に加えて、70%以上の有効領域にオブジェクトを配置し、様々な指標で他の手法よりも優れていることが分かる。
関連論文リスト
- AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using
Semantic Understanding in Mixed Reality [3.469644923522024]
拡張現実におけるオブジェクト配置のための新しいオープン語彙法を提案する。
予備的なユーザスタディにおいて、我々の手法は少なくとも人間の57%の時間において人間の専門家と同様に機能することを示した。
論文 参考訳(メタデータ) (2023-12-20T07:34:20Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - AirLoc: Object-based Indoor Relocalization [8.88390498722337]
そこで本研究では,AirLocと呼ばれるシンプルなオブジェクトベース屋内再配置手法を提案する。
オブジェクト再識別とオブジェクト関係の記憶という課題を克服するために,オブジェクトの外観の埋め込みとオブジェクト間の幾何学的関係を抽出する。
その結果、ロバストで正確でポータブルな屋内再局在システムとなり、室内レベルの再局在における最先端の手法を9.5%、精度7%で上回る結果となった。
論文 参考訳(メタデータ) (2023-04-03T13:16:47Z) - Lifelong Ensemble Learning based on Multiple Representations for
Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。
生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。
提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文 参考訳(メタデータ) (2022-05-04T10:29:10Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Contrastive Learning for Cross-Domain Open World Recognition [17.660958043781154]
進化する能力は、知識が製造者によって注入されるものに限定されない貴重な自律エージェントにとって基本的なものである。
新しいクラスをインクリメンタルに含めるのに適した機能空間を学習し、様々な視覚領域にまたがる知識を捉えることができることを示す。
本手法は,学習エピソードごとの効果的な停止基準を付与し,新たな自己ペースしきい値設定戦略を活用する。
論文 参考訳(メタデータ) (2022-03-17T11:23:53Z) - IFOR: Iterative Flow Minimization for Robotic Object Rearrangement [92.97142696891727]
IFOR(Iterative Flow Minimization for Robotic Object Rearrangement)は、未知物体の物体再構成問題に対するエンドツーエンドの手法である。
本手法は,合成データのみを訓練しながら,散在するシーンや実世界に適用可能であることを示す。
論文 参考訳(メタデータ) (2022-02-01T20:03:56Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。
この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文 参考訳(メタデータ) (2021-08-15T14:36:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。