論文の概要: IFR-Explore: Learning Inter-object Functional Relationships in 3D Indoor
Scenes
- arxiv url: http://arxiv.org/abs/2112.05298v1
- Date: Fri, 10 Dec 2021 02:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 01:05:14.517436
- Title: IFR-Explore: Learning Inter-object Functional Relationships in 3D Indoor
Scenes
- Title(参考訳): IFR-Explore:3次元屋内シーンにおける物体間機能関係の学習
- Authors: Qi Li, Kaichun Mo, Yanchao Yang, Hang Zhao, Leonidas Guibas
- Abstract要約: 我々は、対象間の機能的関係を知覚し、モデル化するためにも重要である新しい種類の視覚的関係について研究する。
我々は,3次元屋内環境における物体間機能関係を学習するAIシステム構築の第一歩を踏み出す。
- 参考スコア(独自算出の注目度): 29.914349265706083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building embodied intelligent agents that can interact with 3D indoor
environments has received increasing research attention in recent years. While
most works focus on single-object or agent-object visual functionality and
affordances, our work proposes to study a new kind of visual relationship that
is also important to perceive and model -- inter-object functional
relationships (e.g., a switch on the wall turns on or off the light, a remote
control operates the TV). Humans often spend little or no effort to infer these
relationships, even when entering a new room, by using our strong prior
knowledge (e.g., we know that buttons control electrical devices) or using only
a few exploratory interactions in cases of uncertainty (e.g., multiple switches
and lights in the same room). In this paper, we take the first step in building
AI system learning inter-object functional relationships in 3D indoor
environments with key technical contributions of modeling prior knowledge by
training over large-scale scenes and designing interactive policies for
effectively exploring the training scenes and quickly adapting to novel test
scenes. We create a new benchmark based on the AI2Thor and PartNet datasets and
perform extensive experiments that prove the effectiveness of our proposed
method. Results show that our model successfully learns priors and
fast-interactive-adaptation strategies for exploring inter-object functional
relationships in complex 3D scenes. Several ablation studies further validate
the usefulness of each proposed module.
- Abstract(参考訳): 近年,3次元屋内環境と対話可能な知的エージェントの構築が研究の注目を集めている。
ほとんどの研究は、単一オブジェクトまたはエージェントオブジェクトの視覚機能と余裕に焦点を当てているが、我々の研究は、オブジェクト間の機能的関係(例えば、壁のスイッチが光をオンまたはオフするなど)を知覚しモデル化するためにも重要である新しい種類の視覚的関係を研究することを提案する。
人間は、新しい部屋に入るときでさえ、私たちの強力な事前知識(例えば、ボタンが電気機器を制御すること)や、不確実性(例えば、同じ部屋の複数のスイッチと照明)の場合に探索的な相互作用を少しだけ使うことで、これらの関係を推測するためにほとんど、あるいは全く努力を払わない。
本稿では,大規模シーン上でのトレーニングによる事前知識のモデリングと,トレーニングシーンを効果的に探索し,新規なテストシーンに迅速に適応するためのインタラクティブなポリシーを設計することによる,3次元屋内環境におけるAIシステム学習の相互機能的関係構築に向けた第一歩を踏み出す。
我々はAI2ThorとPartNetのデータセットに基づく新しいベンチマークを作成し、提案手法の有効性を証明する広範な実験を行う。
以上の結果から,複雑な3次元シーンにおける対象間の機能的関係を探索するための先行学習と高速対話型適応手法が得られた。
いくつかのアブレーション研究は、提案された各モジュールの有用性をさらに検証している。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Compositional Learning in Transformer-Based Human-Object Interaction
Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文 参考訳(メタデータ) (2023-08-11T06:41:20Z) - AdaAfford: Learning to Adapt Manipulation Affordance for 3D Articulated
Objects via Few-shot Interactions [13.802675708793014]
キャビネット、ドア、蛇口などの3D音声による物体の認識と相互作用は、将来のホームアシストロボットに特別な課題をもたらす。
我々はAdaAffordという名の新しいフレームワークを提案し、より正確なインスタンス固有の後付けに手軽さを迅速に適応するために、ごく少数のテスト時間インタラクションを実行することを学習する。
論文 参考訳(メタデータ) (2021-12-01T03:00:05Z) - Dynamic Modeling of Hand-Object Interactions via Tactile Sensing [133.52375730875696]
本研究では,高分解能な触覚グローブを用いて,多種多様な物体に対して4種類のインタラクティブな動作を行う。
我々は,クロスモーダル学習フレームワーク上にモデルを構築し,視覚処理パイプラインを用いてラベルを生成し,触覚モデルを監督する。
この研究は、高密度触覚センシングによる手動物体相互作用における動的モデリングの一歩を踏み出す。
論文 参考訳(メタデータ) (2021-09-09T16:04:14Z) - VAT-Mart: Learning Visual Action Trajectory Proposals for Manipulating
3D ARTiculated Objects [19.296344218177534]
3次元の明瞭な物体の空間は、その無数の意味圏、多様な形状幾何学、複雑な部分関数に非常に豊富である。
それまでの作業は, 関節パラメータを推定し, 3次元関節物体の視覚的表現として機能する, 抽象運動学的な構造が主流であった。
本研究では,物体中心の動作可能な視覚的先入観を,知覚システムが運動構造推定よりも動作可能なガイダンスを出力する,新しい知覚-相互作用ハンドシェイキングポイントとして提案する。
論文 参考訳(メタデータ) (2021-06-28T07:47:31Z) - Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a
First-person Simulated 3D Environment [73.9469267445146]
高忠実な3Dシミュレーション環境において、AI2Thorのような一対一のオブジェクトインタラクションタスクは、強化学習エージェントに顕著なサンプル効率の課題をもたらす。
補助的なタスクとして注意的オブジェクトモデルを学ぶことで、監督なしに、ゼロからオブジェクトインタラクションタスクを学習できることが示される。
論文 参考訳(メタデータ) (2020-10-28T19:27:26Z) - Visual Relationship Detection with Visual-Linguistic Knowledge from
Multimodal Representations [103.00383924074585]
視覚的関係検出は、画像内の有能なオブジェクト間の関係を推論することを目的としている。
変換器からの視覚言語表現(RVL-BERT)という新しい手法を提案する。
RVL-BERTは、自己教師付き事前学習を通じて学習した視覚的・言語的常識知識を用いて空間推論を行う。
論文 参考訳(メタデータ) (2020-09-10T16:15:09Z) - Learning About Objects by Learning to Interact with Them [29.51363040054068]
人間はしばしば、外部の監督をほとんど、あるいは全く行わずに自分の世界について学ぶ。
物体を発見し,その物理特性を学習する計算フレームワークを提案する。
我々のエージェントは、近距離フォトリアリスティックで物理対応のAI2-THOR環境の中に置かれると、その世界と対話し、物体について学ぶ。
論文 参考訳(メタデータ) (2020-06-16T16:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。