論文の概要: Comparative Multi-View Language Grounding
- arxiv url: http://arxiv.org/abs/2311.06694v2
- Date: Tue, 14 Nov 2023 03:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 11:31:02.609374
- Title: Comparative Multi-View Language Grounding
- Title(参考訳): 比較多視点言語グラウンドング
- Authors: Chancharik Mitra, Abrar Anwar, Rodolfo Corona, Dan Klein, Trevor
Darrell, Jesse Thomason
- Abstract要約: 比較言語記述が与えられた場合,対象参照を解消する作業について検討する。
本稿では, トランスフォーマを利用して, 両オブジェクトを実用的に理性的に解析するマルチビュー・アプローチ(MAGiC)を提案する。
- 参考スコア(独自算出の注目度): 81.87255338962376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we consider the task of resolving object referents when given a
comparative language description. We present a Multi-view Approach to Grounding
in Context (MAGiC) that leverages transformers to pragmatically reason over
both objects given multiple image views and a language description. In contrast
to past efforts that attempt to connect vision and language for this task
without fully considering the resulting referential context, MAGiC makes use of
the comparative information by jointly reasoning over multiple views of both
object referent candidates and the referring language expression. We present an
analysis demonstrating that comparative reasoning contributes to SOTA
performance on the SNARE object reference task.
- Abstract(参考訳): 本研究では,比較言語記述が与えられた場合,対象参照を解消する作業について考察する。
本稿では,複数の画像ビューと言語記述が与えられたオブジェクトを現実的に解析するために,トランスフォーマーを活用するマルチビュー・コンテクスト(MAGiC)を提案する。
参照コンテキストを完全に考慮せずに視覚と言語を接続しようとする過去の取り組みとは対照的に、MAGiCはオブジェクト参照候補と参照言語表現の両方の複数のビューを共同で推論することで比較情報を利用する。
本稿では,比較推論がsnareオブジェクト参照タスクにおけるsoma性能に寄与することを示す分析を行う。
関連論文リスト
- 3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。
3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T09:33:25Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。
我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。
我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文 参考訳(メタデータ) (2022-12-20T09:48:24Z) - ObjCAViT: Improving Monocular Depth Estimation Using Natural Language
Models And Image-Object Cross-Attention [22.539300644593936]
単眼深度推定(MDE)は3次元シーンを2次元に圧縮することで生じる曖昧さのため困難である。
人間や動物は、MDEを解決するために高レベルな情報を使っていることが示されている。
本稿では、シーン内のオブジェクトの意味やオブジェクト間の関係に関する既知の情報の利用を促すことで、MDE性能を向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-30T18:32:06Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Object-Compositional Neural Implicit Surfaces [45.274466719163925]
ニューラル暗示表現は、新しいビュー合成と多視点画像からの高品質な3D再構成においてその効果を示した。
本稿では,3次元再構成とオブジェクト表現に高い忠実性を有するオブジェクト合成型ニューラル暗黙表現を構築するための新しいフレームワークであるObjectSDFを提案する。
論文 参考訳(メタデータ) (2022-07-20T06:38:04Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Accurate Object Association and Pose Updating for Semantic SLAM [2.9602796547156323]
提案手法は,Kittiデータセットのシミュレーションシーケンスと複数のシーケンスに基づいて評価する。
実験の結果,従来のSLAM法と最先端の意味的SLAM法に関して,非常に顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-12-21T14:21:09Z) - MLCVNet: Multi-Level Context VoteNet for 3D Object Detection [51.45832752942529]
我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。
異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。
本手法は,3次元物体検出データセットの精度向上に有効な手法である。
論文 参考訳(メタデータ) (2020-04-12T19:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。