Fugu-MT 論文翻訳(概要): OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality

論文の概要: OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality

arxiv url: http://arxiv.org/abs/2401.08973v1
Date: Wed, 17 Jan 2024 04:52:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 17:01:39.471747
Title: OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality
Title（参考訳）: OCTO+:複合現実感におけるオープン語彙オブジェクトの自動配置のためのスイート
Authors: Aditya Sharma, Luke Yoffe, Tobias H\"ollerer
Abstract要約: オープン語彙視覚言語モデルにおける最近の進歩を利用して, オブジェクトの自動配置法をいくつか導入し, 評価する。 OCTO+は、オブジェクトを70%以上の有効領域に配置し、さまざまなメトリクスで他のメソッドよりも優れています。
参考スコア（独自算出の注目度）: 3.469644923522024
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One key challenge in Augmented Reality is the placement of virtual content in natural locations. Most existing automated techniques can only work with a closed-vocabulary, fixed set of objects. In this paper, we introduce and evaluate several methods for automatic object placement using recent advances in open-vocabulary vision-language models. Through a multifaceted evaluation, we identify a new state-of-the-art method, OCTO+. We also introduce a benchmark for automatically evaluating the placement of virtual objects in augmented reality, alleviating the need for costly user studies. Through this, in addition to human evaluations, we find that OCTO+ places objects in a valid region over 70% of the time, outperforming other methods on a range of metrics.
Abstract（参考訳）: Augmented Realityの重要な課題は、自然の場所に仮想コンテンツを置くことだ。既存の自動化技術のほとんどは、クローズド・ボカブラリーで固定されたオブジェクトセットでのみ機能する。本稿では,近年のオープン語彙視覚言語モデルによるオブジェクトの自動配置手法を紹介し,評価する。多面的評価により,新しい最先端手法OCTO+を同定する。また,拡張現実における仮想物体の位置を自動的に評価するベンチマークも導入し,コストのかかるユーザ研究の必要性を緩和する。これにより、OCTO+は、人間の評価に加えて、70%以上の有効領域にオブジェクトを配置し、様々な指標で他の手法よりも優れていることが分かる。

関連論文リスト

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2025-03-10T06:18:31Z)
AirRoom: Objects Matter in Room Reidentification [4.386378218714507]
AirRoomは、多レベルオブジェクト指向情報を統合するオブジェクト認識パイプラインである。 AirRoomは、ほぼすべての評価指標で最先端(SOTA)モデルを上回っている。
論文参考訳（メタデータ） (2025-03-03T03:20:08Z)
Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-16T09:14:32Z)
Structured Spatial Reasoning with Open Vocabulary Object Detectors [2.089191490381739]
オブジェクト間の空間的関係に関する推論は多くの実世界のロボット作業において不可欠である。我々は、リッチな3次元幾何学的特徴と最先端のオープンボキャブラリオブジェクト検出器を統合する構造的確率的アプローチを導入する。この手法は、空間推論タスクにおける最先端ビジョン・言語モデル(VLM)のゼロショット性能を評価・比較する。
論文参考訳（メタデータ） (2024-10-09T19:37:01Z)
Automatic Scene Generation: State-of-the-Art Techniques, Models, Datasets, Challenges, and Future Prospects [0.94371657253557]
本調査は、機械学習、ディープラーニング、組み込みシステム、自然言語処理(NLP)を活用する技術に焦点を当てる。モデルを,変分オートエンコーダ(VAE),GAN(Generative Adrial Networks),トランスフォーマー(Transformer),拡散モデル(Diffusion Models)の4つのタイプに分類する。また、COCO-Stuff、Visual Genome、MS-COCOといった、これらのモデルのトレーニングと評価に欠かせない最も一般的なデータセットについてもレビューする。
論文参考訳（メタデータ） (2024-09-14T19:09:10Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文参考訳（メタデータ） (2024-07-22T12:32:09Z)
AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文参考訳（メタデータ） (2024-03-26T04:27:56Z)
OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using Semantic Understanding in Mixed Reality [3.469644923522024]
拡張現実におけるオブジェクト配置のための新しいオープン語彙法を提案する。予備的なユーザスタディにおいて、我々の手法は少なくとも人間の57%の時間において人間の専門家と同様に機能することを示した。
論文参考訳（メタデータ） (2023-12-20T07:34:20Z)
Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文参考訳（メタデータ） (2023-12-10T03:56:06Z)
Context-Aware Indoor Point Cloud Object Generation through User Instructions [6.398660996031915]
本稿では,その周辺環境とシームレスに統合された点雲オブジェクトを生成することができる,新しいエンドツーエンドのマルチモーダルディープニューラルネットワークを提案する。我々のモデルは、これまで見えなかったオブジェクトレイアウトで新しい環境を作成できるようにすることで、シーン修正に革命をもたらす。
論文参考訳（メタデータ） (2023-11-26T06:40:16Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Lifelong Ensemble Learning based on Multiple Representations for Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文参考訳（メタデータ） (2022-05-04T10:29:10Z)
Learning Open-World Object Proposals without Learning to Classify [110.30191531975804]
本研究では,各領域の位置と形状がどの接地トラストオブジェクトとどのように重なり合うかによって,各領域の目的性を純粋に推定する,分類不要なオブジェクトローカライゼーションネットワークを提案する。この単純な戦略は一般化可能な対象性を学び、クロスカテゴリの一般化に関する既存の提案より優れている。
論文参考訳（メタデータ） (2021-08-15T14:36:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。