論文の概要: OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using
Semantic Understanding in Mixed Reality
- arxiv url: http://arxiv.org/abs/2312.12815v1
- Date: Wed, 20 Dec 2023 07:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 16:24:36.807323
- Title: OCTOPUS: Open-vocabulary Content Tracking and Object Placement Using
Semantic Understanding in Mixed Reality
- Title(参考訳): OCTOPUS:混合現実における意味的理解を用いたオープン語彙コンテンツ追跡とオブジェクト配置
- Authors: Luke Yoffe, Aditya Sharma, Tobias H\"ollerer
- Abstract要約: 拡張現実におけるオブジェクト配置のための新しいオープン語彙法を提案する。
予備的なユーザスタディにおいて、我々の手法は少なくとも人間の57%の時間において人間の専門家と同様に機能することを示した。
- 参考スコア(独自算出の注目度): 3.469644923522024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One key challenge in augmented reality is the placement of virtual content in
natural locations. Existing automated techniques are only able to work with a
closed-vocabulary, fixed set of objects. In this paper, we introduce a new
open-vocabulary method for object placement. Our eight-stage pipeline leverages
recent advances in segmentation models, vision-language models, and LLMs to
place any virtual object in any AR camera frame or scene. In a preliminary user
study, we show that our method performs at least as well as human experts 57%
of the time.
- Abstract(参考訳): 拡張現実における重要な課題のひとつは、自然な場所に仮想コンテンツを置くことだ。
既存の自動化技術は、クローズド・ボカブラリーで固定されたオブジェクトのセットでのみ機能する。
本稿では,オブジェクト配置のための新しいオープン語彙法を提案する。
私たちの8段階パイプラインは、セグメンテーションモデル、ビジョン言語モデル、LLMの最近の進歩を活用して、任意のARカメラフレームやシーンに仮想オブジェクトを配置します。
予備的なユーザスタディにおいて,提案手法は少なくとも人間の専門家の57%と同等の性能を発揮することを示した。
関連論文リスト
- MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - OCTO+: A Suite for Automatic Open-Vocabulary Object Placement in Mixed
Reality [3.469644923522024]
オープン語彙視覚言語モデルにおける最近の進歩を利用して, オブジェクトの自動配置法をいくつか導入し, 評価する。
OCTO+は、オブジェクトを70%以上の有効領域に配置し、さまざまなメトリクスで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-01-17T04:52:40Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Opening the Vocabulary of Egocentric Actions [42.94865322371628]
本稿では,新しいオープン語彙行動認識タスクを提案する。
訓練中に観察される動詞と対象のセットが与えられた場合、目的は、動詞を、目に見えるものや新しいものを含む行動のオープンな語彙に一般化することである。
EPIC-KITCHENS-100およびアセンブリ101データセット上で,オープンな語彙ベンチマークを作成する。
論文 参考訳(メタデータ) (2023-08-22T15:08:02Z) - One-shot Imitation Learning via Interaction Warping [32.5466340846254]
本稿では,1つの実演からSE(3)ロボット操作ポリシーを学習するためのインタラクションウォーピング法を提案する。
我々は、オブジェクトインスタンス間で点雲を整列させる技術である形状ワープを用いて、環境中の各オブジェクトの3Dメッシュを推論する。
3つのシミュレーションおよび実世界のオブジェクト再配置タスクで1ショットの模倣学習を成功させる。
論文 参考訳(メタデータ) (2023-06-21T17:26:11Z) - OVTrack: Open-Vocabulary Multiple Object Tracking [64.73379741435255]
OVTrackは任意のオブジェクトクラスを追跡することができるオープン語彙トラッカーである。
大規模な大語彙のTAOベンチマークに新たな最先端技術が設定されている。
論文 参考訳(メタデータ) (2023-04-17T16:20:05Z) - Ditto in the House: Building Articulation Models of Indoor Scenes
through Interactive Perception [31.009703947432026]
本研究は,ロボットの意図的なインタラクションを通じて室内シーンの調音モデルを構築することを検討する。
この課題にインタラクティブな認識アプローチを導入する。
シミュレーションと実世界の両方において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-02-02T18:22:00Z) - Learning 6-DoF Object Poses to Grasp Category-level Objects by Language
Instructions [74.63313641583602]
本稿では,既知カテゴリから把握する任意のオブジェクトのタスクを,自由形式の言語命令を用いて検討する。
我々はこれらの規律を、人間とロボットの相互作用に不可欠なオープンチャレンジにまとめる。
言語誘導型6-DoFカテゴリーレベルの物体位置定位モデルを提案する。
論文 参考訳(メタデータ) (2022-05-09T04:25:14Z) - Discovering Objects that Can Move [55.743225595012966]
手動ラベルなしでオブジェクトを背景から分離する、オブジェクト発見の問題について検討する。
既存のアプローチでは、色、テクスチャ、位置などの外観の手がかりを使用して、ピクセルをオブジェクトのような領域に分類する。
私たちは、動的オブジェクト -- 世界で独立して動くエンティティ -- にフォーカスすることを選びます。
論文 参考訳(メタデータ) (2022-03-18T21:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。