Fugu-MT 論文翻訳(概要): OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using Semantic Understanding in Mixed Reality

論文の概要: OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using Semantic Understanding in Mixed Reality

arxiv url: http://arxiv.org/abs/2312.12815v1
Date: Wed, 20 Dec 2023 07:34:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-21 16:24:36.807323
Title: OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using Semantic Understanding in Mixed Reality
Title（参考訳）: OCTOPUS:混合現実における意味的理解を用いたオープン語彙コンテンツ追跡とオブジェクト配置
Authors: Luke Yoffe, Aditya Sharma, Tobias H\"ollerer
Abstract要約: 拡張現実におけるオブジェクト配置のための新しいオープン語彙法を提案する。予備的なユーザスタディにおいて、我々の手法は少なくとも人間の57%の時間において人間の専門家と同様に機能することを示した。
参考スコア（独自算出の注目度）: 3.469644923522024
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One key challenge in augmented reality is the placement of virtual content in natural locations. Existing automated techniques are only able to work with a closed-vocabulary, fixed set of objects. In this paper, we introduce a new open-vocabulary method for object placement. Our eight-stage pipeline leverages recent advances in segmentation models, vision-language models, and LLMs to place any virtual object in any AR camera frame or scene. In a preliminary user study, we show that our method performs at least as well as human experts 57% of the time.
Abstract（参考訳）: 拡張現実における重要な課題のひとつは、自然な場所に仮想コンテンツを置くことだ。既存の自動化技術は、クローズド・ボカブラリーで固定されたオブジェクトのセットでのみ機能する。本稿では,オブジェクト配置のための新しいオープン語彙法を提案する。私たちの8段階パイプラインは、セグメンテーションモデル、ビジョン言語モデル、LLMの最近の進歩を活用して、任意のARカメラフレームやシーンに仮想オブジェクトを配置します。予備的なユーザスタディにおいて,提案手法は少なくとも人間の専門家の57%と同等の性能を発揮することを示した。

関連論文リスト

DynVFX: Augmenting Real Videos with Dynamic Content [19.393567535259518]
本稿では,動的コンテンツを新たに生成した実世界の映像を拡大する手法を提案する。入力ビデオと、所望の内容を記述した簡単なテキスト命令が与えられた場合、本手法は動的オブジェクトや複雑なシーン効果を合成する。新しいコンテンツの位置、外観、動きは、元の映像にシームレスに統合される。
論文参考訳（メタデータ） (2025-02-05T21:14:55Z)
Interacted Object Grounding in Spatio-Temporal Human-Object Interactions [70.8859442754261]
我々は、新しいオープンワールドベンチマーク: Grounding Interacted Objects (GIO)を導入する。オブジェクトの接地作業は視覚システムが相互作用するオブジェクトを発見することを期待するものである。多様なビデオから対話オブジェクトを検出するための4D質問応答フレームワーク(4D-QA)を提案する。
論文参考訳（メタデータ） (2024-12-27T09:08:46Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [50.16478515591924]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文参考訳（メタデータ） (2024-08-17T06:24:43Z)
Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文参考訳（メタデータ） (2024-07-07T04:50:04Z)
OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding [21.64446104872021]
オープンな語彙を持つオブジェクトレベルのニューラルフィールドを構築するための革新的なアプローチであるOpenを紹介します。本質的にOpenは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。複数のデータセットの結果から、Openはゼロショットセマンティクスおよび検索タスクにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-06-12T08:59:33Z)
OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed Reality [3.469644923522024]
オープン語彙視覚言語モデルにおける最近の進歩を利用して, オブジェクトの自動配置法をいくつか導入し, 評価する。 OCTO+は、オブジェクトを70%以上の有効領域に配置し、さまざまなメトリクスで他のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-01-17T04:52:40Z)
Generating Action-conditioned Prompts for Open-vocabulary Video Action Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文参考訳（メタデータ） (2023-12-04T02:31:38Z)
One-shot Imitation Learning via Interaction Warping [32.5466340846254]
本稿では,1つの実演からSE(3)ロボット操作ポリシーを学習するためのインタラクションウォーピング法を提案する。我々は、オブジェクトインスタンス間で点雲を整列させる技術である形状ワープを用いて、環境中の各オブジェクトの3Dメッシュを推論する。 3つのシミュレーションおよび実世界のオブジェクト再配置タスクで1ショットの模倣学習を成功させる。
論文参考訳（メタデータ） (2023-06-21T17:26:11Z)
Ditto in the House: Building Articulation Models of Indoor Scenes through Interactive Perception [31.009703947432026]
本研究は,ロボットの意図的なインタラクションを通じて室内シーンの調音モデルを構築することを検討する。この課題にインタラクティブな認識アプローチを導入する。シミュレーションと実世界の両方において,本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-02-02T18:22:00Z)
Learning 6-DoF Object Poses to Grasp Category-level Objects by Language Instructions [74.63313641583602]
本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。言語誘導型6-DoFカテゴリーレベルの物体位置定位モデルを提案する。
論文参考訳（メタデータ） (2022-05-09T04:25:14Z)
Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文参考訳（メタデータ） (2022-03-18T21:13:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。