論文の概要: "Where am I?" Scene Retrieval with Language
- arxiv url: http://arxiv.org/abs/2404.14565v1
- Date: Mon, 22 Apr 2024 20:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 17:48:00.551172
- Title: "Where am I?" Scene Retrieval with Language
- Title(参考訳): 「私は何者ですか?」
- Authors: Jiaqi Chen, Daniel Barath, Iro Armeni, Marc Pollefeys, Hermann Blum,
- Abstract要約: テキスト記述とシーングラフの結合埋め込みを学習し、一致したかどうかを判断する「シーン検索」パイプラインを提案する。
コード、トレーニングされたモデル、データセットが公開されます。
- 参考スコア(独自算出の注目度): 78.59197827537635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language interfaces to embodied AI are becoming more ubiquitous in our daily lives. This opens further opportunities for language-based interaction with embodied agents, such as a user instructing an agent to execute some task in a specific location. For example, "put the bowls back in the cupboard next to the fridge" or "meet me at the intersection under the red sign." As such, we need methods that interface between natural language and map representations of the environment. To this end, we explore the question of whether we can use an open-set natural language query to identify a scene represented by a 3D scene graph. We define this task as "language-based scene-retrieval" and it is closely related to "coarse-localization," but we are instead searching for a match from a collection of disjoint scenes and not necessarily a large-scale continuous map. Therefore, we present Text2SceneGraphMatcher, a "scene-retrieval" pipeline that learns joint embeddings between text descriptions and scene graphs to determine if they are matched. The code, trained models, and datasets will be made public.
- Abstract(参考訳): AIを具現化した自然言語インタフェースは、私たちの日常生活でますます普及している。
これは、特定の場所でタスクを実行するようにエージェントに指示するユーザなど、エンボディエージェントとの言語ベースのインタラクションの機会をさらに開放する。
例えば、「ボウルを冷蔵庫の隣の食器棚に戻す」、または「赤い看板の下の交差点で私をミートする」といった具合である。
そのため、自然言語と環境の地図表現を相互作用させる方法が必要である。
この目的のために,3次元シーングラフで表現されたシーンを識別するために,オープンセットの自然言語クエリを使用できるかどうかを探索する。
我々は,この課題を「言語に基づくシーン検索」と定義し,「粗局化」と密接に関連している。
そこで本研究では,テキスト記述とシーングラフの結合埋め込みを学習し,マッチするかどうかを判定する“シーン検索”パイプラインであるText2SceneGraphMatcherを提案する。
コード、トレーニングされたモデル、データセットが公開されます。
関連論文リスト
- QueSTMaps: Queryable Semantic Topological Maps for 3D Scene Understanding [6.455827396022967]
シーン内の"kitchen"のようなトポロジカルな領域を分割する2ステップのパイプラインを導入します。
私たちは、CLIPに準拠した機能と、それを含むオブジェクトに基づいて、ルームインスタンス毎にセマンティックラベルを生成します。
部屋のセグメンテーションの最先端を20%、部屋の分類を12%上回った。
論文 参考訳(メタデータ) (2024-04-09T16:42:54Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Neural Implicit Vision-Language Feature Fields [40.248658511361015]
ゼロショットボリュームのオープン語彙セマンティックシーンセグメンテーション法を提案する。
本手法は,視覚言語モデルからニューラル暗黙表現に画像特徴を融合させることができるという知見に基づいている。
本研究では,本手法が実世界のノイズの多いデータ上で動作し,テキストのプロンプトに適応してリアルタイムにリアルタイムにリアルタイムに動作可能であることを示す。
論文 参考訳(メタデータ) (2023-03-20T09:38:09Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions [94.17683799712397]
我々は、グラフ内のシーンのエンティティを整理するデータ構造であるシーングラフに焦点を当てる。
本研究では,シーンの点雲からシーングラフを回帰する学習手法を提案する。
本稿では,3D-3Dおよび2D-3Dマッチングの中間表現としてグラフが機能するドメインに依存しない検索タスクにおける本手法の適用について述べる。
論文 参考訳(メタデータ) (2020-04-08T12:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。