論文の概要: Pseudo 3D Perception Transformer with Multi-level Confidence
Optimization for Visual Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2301.13335v1
- Date: Mon, 30 Jan 2023 23:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 18:08:32.888525
- Title: Pseudo 3D Perception Transformer with Multi-level Confidence
Optimization for Visual Commonsense Reasoning
- Title(参考訳): 視覚コモンセンス推論のためのマルチレベル信頼度最適化による擬似3次元知覚トランスフォーマ
- Authors: Jian Zhu, and Hanli Wang
- Abstract要約: Visual Commonsense Reasoning(VCR)を実行するフレームワークは、答えを選択する必要がある。
画像深度は、オブジェクトの擬似3次元(2D)位置を表すために導入された。
単語やオブジェクトからオブジェクトへの深度差によって誘導される注意機構を実現するために,深度対応トランスフォーマーを提案する。
- 参考スコア(独自算出の注目度): 14.998309259808236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A framework performing Visual Commonsense Reasoning(VCR) needs to choose an
answer and further provide a rationale justifying based on the given image and
question, where the image contains all the facts for reasoning and requires to
be sufficiently understood. Previous methods use a detector applied on the
image to obtain a set of visual objects without considering the exact positions
of them in the scene, which is inadequate for properly understanding spatial
and semantic relationships between objects. In addition, VCR samples are quite
diverse, and parameters of the framework tend to be trained suboptimally based
on mini-batches. To address above challenges, pseudo 3D perception Transformer
with multi-level confidence optimization named PPTMCO is proposed for VCR in
this paper. Specifically, image depth is introduced to represent pseudo
3-dimension(3D) positions of objects along with 2-dimension(2D) coordinates in
the image and further enhance visual features. Then, considering that
relationships between objects are influenced by depth, depth-aware Transformer
is proposed to do attention mechanism guided by depth differences from answer
words and objects to objects, where each word is tagged with pseudo depth value
according to related objects. To better optimize parameters of the framework, a
model parameter estimation method is further proposed to weightedly integrate
parameters optimized by mini-batches based on multi-level reasoning confidence.
Experiments on the benchmark VCR dataset demonstrate the proposed framework
performs better against the state-of-the-art approaches.
- Abstract(参考訳): Visual Commonsense Reasoning(VCR)を実行するフレームワークは、与えられた画像と質問に基づいて、その画像が推論のすべての事実を含み、十分な理解を必要とする根拠を提供する必要がある。
従来の方法では、画像上に印加された検出器を用いて、シーン内の物体の正確な位置を考慮せずに視覚オブジェクトの集合を得ることができ、オブジェクト間の空間的および意味的関係を適切に理解できない。
さらに、VCRサンプルは非常に多様であり、フレームワークのパラメータはミニバッチに基づいて過度に訓練される傾向がある。
上記の課題に対処するために, PPTMCOという多レベル信頼度最適化を用いた擬似3次元知覚変換器を提案する。
具体的には、画像中の2次元座標と共に物体の擬似3次元位置を表現するために画像深度を導入し、さらに視覚的特徴を高める。
そこで,物体間の関係が深度の影響を受けていることを考慮し,各単語を擬似深度値でタグ付けして,解答語や物体から物体への深度差によって誘導される注意機構を提案する。
フレームワークのパラメータをより最適化するために,マルチレベル推論の信頼性に基づいてミニバッチによって最適化されたパラメータを重み付け統合するモデルパラメータ推定手法を提案する。
ベンチマークVCRデータセットの実験では、提案されたフレームワークが最先端のアプローチに対してより良いパフォーマンスを示す。
関連論文リスト
- RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis [45.62657605766754]
MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-31T14:21:49Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。