論文の概要: Which One? Leveraging Context Between Objects and Multiple Views for Language Grounding
- arxiv url: http://arxiv.org/abs/2311.06694v3
- Date: Sat, 6 Apr 2024 22:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 02:25:39.647578
- Title: Which One? Leveraging Context Between Objects and Multiple Views for Language Grounding
- Title(参考訳): どれか? 言語接地のためのオブジェクトと複数ビュー間のコンテキストの活用
- Authors: Chancharik Mitra, Abrar Anwar, Rodolfo Corona, Dan Klein, Trevor Darrell, Jesse Thomason,
- Abstract要約: 文脈内接地に対する多視点的アプローチ(MAGiC)を提案する。
2つの類似したオブジェクトを区別する言語に基づくオブジェクト参照を選択する。
SNAREオブジェクト参照タスクの最先端モデルよりも、相対誤差を12.9%削減する。
- 参考スコア(独自算出の注目度): 77.26626173589746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When connecting objects and their language referents in an embodied 3D environment, it is important to note that: (1) an object can be better characterized by leveraging comparative information between itself and other objects, and (2) an object's appearance can vary with camera position. As such, we present the Multi-view Approach to Grounding in Context (MAGiC), which selects an object referent based on language that distinguishes between two similar objects. By pragmatically reasoning over both objects and across multiple views of those objects, MAGiC improves over the state-of-the-art model on the SNARE object reference task with a relative error reduction of 12.9\% (representing an absolute improvement of 2.7\%). Ablation studies show that reasoning jointly over object referent candidates and multiple views of each object both contribute to improved accuracy. Code: https://github.com/rcorona/magic_snare/
- Abstract(参考訳): 具体化された3D環境下でオブジェクトと言語参照物を接続する場合、(1)オブジェクトと他のオブジェクトとの比較情報を活用して、(2)オブジェクトの外観がカメラの位置によって異なることを特徴付けることが重要である。
そこで本稿では,2つの類似したオブジェクトを識別する言語に基づいてオブジェクト参照を選択できる,Multi-view Approach to Grounding in Context (MAGiC)を提案する。
両方のオブジェクトとそれらのオブジェクトの複数のビューを実用的に推論することで、MAGiCはSNAREオブジェクト参照タスクの最先端モデルを12.9\%(絶対的な改善 2.7\%)で改善する。
アブレーション研究では、オブジェクト参照候補に対する推論と、各オブジェクトの複数のビューの両方が、精度の向上に寄与している。
コード:https://github.com/rcorona/magic_snare/
関連論文リスト
- 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。
我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。
我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文 参考訳(メタデータ) (2022-12-20T09:48:24Z) - ObjCAViT: Improving Monocular Depth Estimation Using Natural Language
Models And Image-Object Cross-Attention [22.539300644593936]
単眼深度推定(MDE)は3次元シーンを2次元に圧縮することで生じる曖昧さのため困難である。
人間や動物は、MDEを解決するために高レベルな情報を使っていることが示されている。
本稿では、シーン内のオブジェクトの意味やオブジェクト間の関係に関する既知の情報の利用を促すことで、MDE性能を向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T18:32:06Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Object-Compositional Neural Implicit Surfaces [45.274466719163925]
ニューラル暗示表現は、新しいビュー合成と多視点画像からの高品質な3D再構成においてその効果を示した。
本稿では,3次元再構成とオブジェクト表現に高い忠実性を有するオブジェクト合成型ニューラル暗黙表現を構築するための新しいフレームワークであるObjectSDFを提案する。
論文 参考訳(メタデータ) (2022-07-20T06:38:04Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Accurate Object Association and Pose Updating for Semantic SLAM [2.9602796547156323]
提案手法は,Kittiデータセットのシミュレーションシーケンスと複数のシーケンスに基づいて評価する。
実験の結果,従来のSLAM法と最先端の意味的SLAM法に関して,非常に顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-12-21T14:21:09Z) - MLCVNet: Multi-Level Context VoteNet for 3D Object Detection [51.45832752942529]
我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。
異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。
本手法は,3次元物体検出データセットの精度向上に有効な手法である。
論文 参考訳(メタデータ) (2020-04-12T19:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。