Fugu-MT 論文翻訳(概要): Comparative Multi-View Language Grounding

論文の概要: Comparative Multi-View Language Grounding

arxiv url: http://arxiv.org/abs/2311.06694v2
Date: Tue, 14 Nov 2023 03:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 11:31:02.609374
Title: Comparative Multi-View Language Grounding
Title（参考訳）: 比較多視点言語グラウンドング
Authors: Chancharik Mitra, Abrar Anwar, Rodolfo Corona, Dan Klein, Trevor Darrell, Jesse Thomason
Abstract要約: 比較言語記述が与えられた場合,対象参照を解消する作業について検討する。本稿では, トランスフォーマを利用して, 両オブジェクトを実用的に理性的に解析するマルチビュー・アプローチ(MAGiC)を提案する。
参考スコア（独自算出の注目度）: 81.87255338962376
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we consider the task of resolving object referents when given a comparative language description. We present a Multi-view Approach to Grounding in Context (MAGiC) that leverages transformers to pragmatically reason over both objects given multiple image views and a language description. In contrast to past efforts that attempt to connect vision and language for this task without fully considering the resulting referential context, MAGiC makes use of the comparative information by jointly reasoning over multiple views of both object referent candidates and the referring language expression. We present an analysis demonstrating that comparative reasoning contributes to SOTA performance on the SNARE object reference task.
Abstract（参考訳）: 本研究では,比較言語記述が与えられた場合,対象参照を解消する作業について考察する。本稿では,複数の画像ビューと言語記述が与えられたオブジェクトを現実的に解析するために,トランスフォーマーを活用するマルチビュー・コンテクスト(MAGiC)を提案する。参照コンテキストを完全に考慮せずに視覚と言語を接続しようとする過去の取り組みとは対照的に、MAGiCはオブジェクト参照候補と参照言語表現の両方の複数のビューを共同で推論することで比較情報を利用する。本稿では,比較推論がsnareオブジェクト参照タスクにおけるsoma性能に寄与することを示す分析を行う。

関連論文リスト

Multiple Object Stitching for Unsupervised Representation Learning [11.087735229999817]
マルチオブジェクト画像の教師なし表現を洗練させる手法であるMultiple Object Stitchingを提案する。提案手法は,人間のアノテーションを使わずに,多目的画像間の追加のオブジェクト対応を提供する。 ImageNet, CIFAR, COCOデータセットによる実験結果から, 提案手法が教師なし表現性能を先導することを示す。
論文参考訳（メタデータ） (2025-06-09T02:28:21Z)
3DRP-Net: 3D Relative Position-aware Network for 3D Visual Grounding [58.924180772480504]
3Dビジュアルグラウンドは、自由形式の言語記述によって、ターゲットオブジェクトを3Dポイントクラウドにローカライズすることを目的としている。 3次元相対位置認識ネットワーク(3-Net)という,関係性を考慮した一段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T09:33:25Z)
Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2022-12-27T09:13:19Z)
Image Segmentation-based Unsupervised Multiple Objects Discovery [1.7674345486888503]
教師なしオブジェクト発見は、イメージ内のオブジェクトをローカライズすることを目的としている。我々は,複数のオブジェクトの発見に対して,完全に教師なしのボトムアップアプローチを提案する。我々は、教師なしクラス非依存オブジェクト検出と教師なしイメージセグメンテーションの両方に対して、最先端の結果を提供する。
論文参考訳（メタデータ） (2022-12-20T09:48:24Z)
ObjCAViT: Improving Monocular Depth Estimation Using Natural Language Models And Image-Object Cross-Attention [22.539300644593936]
単眼深度推定(MDE)は3次元シーンを2次元に圧縮することで生じる曖昧さのため困難である。人間や動物は、MDEを解決するために高レベルな情報を使っていることが示されている。本稿では、シーン内のオブジェクトの意味やオブジェクト間の関係に関する既知の情報の利用を促すことで、MDE性能を向上させる新しい手法を提案する。
論文参考訳（メタデータ） (2022-11-30T18:32:06Z)
Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文参考訳（メタデータ） (2022-11-27T14:47:31Z)
Object-Compositional Neural Implicit Surfaces [45.274466719163925]
ニューラル暗示表現は、新しいビュー合成と多視点画像からの高品質な3D再構成においてその効果を示した。本稿では,3次元再構成とオブジェクト表現に高い忠実性を有するオブジェクト合成型ニューラル暗黙表現を構築するための新しいフレームワークであるObjectSDFを提案する。
論文参考訳（メタデータ） (2022-07-20T06:38:04Z)
A Simple and Effective Use of Object-Centric Images for Long-Tailed Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。私たちは、シンプルで驚くほど効果的なフレームワークを提示します。我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文参考訳（メタデータ） (2021-02-17T17:27:21Z)
Accurate Object Association and Pose Updating for Semantic SLAM [2.9602796547156323]
提案手法は,Kittiデータセットのシミュレーションシーケンスと複数のシーケンスに基づいて評価する。実験の結果,従来のSLAM法と最先端の意味的SLAM法に関して,非常に顕著な改善が得られた。
論文参考訳（メタデータ） (2020-12-21T14:21:09Z)
MLCVNet: Multi-Level Context VoteNet for 3D Object Detection [51.45832752942529]
我々は,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのマルチレベルコンテキストVoteNet(MLCVNet)を提案する。異なるレベルのコンテキスト情報をエンコードするために,VoteNetの投票・分類段階に3つのコンテキストモジュールを導入する。本手法は,3次元物体検出データセットの精度向上に有効な手法である。
論文参考訳（メタデータ） (2020-04-12T19:10:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。