論文の概要: Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework
for Visual Commonsense Reasoning
- arxiv url: http://arxiv.org/abs/2301.13335v2
- Date: Mon, 25 Dec 2023 12:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 02:10:29.676573
- Title: Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework
for Visual Commonsense Reasoning
- Title(参考訳): 視覚コモンセンス推論のためのマルチモーダル大言語モデル拡張擬似3次元知覚フレームワーク
- Authors: Jian Zhu, Hanli Wang, Miaojing Shi
- Abstract要約: 代表作は、まず画像中のオブジェクトを認識し、それからテキスト中のキーワードと関連付ける。
MLLM拡張擬似3次元認識フレームワークは、視覚的コモンセンス推論のために設計されている。
VCRデータセットの実験は、最先端のアプローチよりも提案されたフレームワークの方が優れていることを示している。
- 参考スコア(独自算出の注目度): 24.29849761674329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual commonsense reasoning (VCR) task is to choose an answer and
provide a justifying rationale based on the given image and textural question.
Representative works first recognize objects in images and then associate them
with key words in texts. However, existing approaches do not consider exact
positions of objects in a human-like three-dimensional (3D) manner, making them
incompetent to accurately distinguish objects and understand visual relation.
Recently, multi-modal large language models (MLLMs) have been used as powerful
tools for several multi-modal tasks but not for VCR yet, which requires
elaborate reasoning on specific visual objects referred by texts. In light of
the above, an MLLM enhanced pseudo 3D perception framework is designed for VCR.
Specifically, we first demonstrate that the relation between objects is
relevant to object depths in images, and hence introduce object depth into VCR
frameworks to infer 3D positions of objects in images. Then, a depth-aware
Transformer is proposed to encode depth differences between objects into the
attention mechanism of Transformer to discriminatively associate objects with
visual scenes guided by depth. To further associate the answer with the depth
of visual scene, each word in the answer is tagged with a pseudo depth to
realize depth-aware association between answer words and objects. On the other
hand, BLIP-2 as an MLLM is employed to process images and texts, and the
referring expressions in texts involving specific visual objects are modified
with linguistic object labels to serve as comprehensible MLLM inputs. Finally,
a parameter optimization technique is devised to fully consider the quality of
data batches based on multi-level reasoning confidence. Experiments on the VCR
dataset demonstrate the superiority of the proposed framework over
state-of-the-art approaches.
- Abstract(参考訳): visual commonsense reasoning (vcr)タスクは、ある回答を選択し、与えられた画像とテクストの質問に基づいて正当化の根拠を提供する。
代表はまず画像中のオブジェクトを認識し、次にテキスト中のキーワードと関連付ける。
しかし、既存のアプローチでは、物体の正確な位置を人間の3次元的な方法で考慮していないため、物体を正確に識別し、視覚的関係を理解する能力がない。
近年,Multi-modal large language model (MLLM) が複数のマルチモーダルタスクの強力なツールとして使用されているが,VCRには適用されていない。
以上を踏まえ、MLLM拡張擬似3次元認識フレームワークはVCR用に設計されている。
具体的には,物体間の関係が画像の物体深度に関係していることを示し,VCRフレームワークに物体深度を導入して画像中の物体の3次元位置を推定する。
次に,物体間の深度差をトランスフォーマーの注意機構にエンコードして,物体と深度で案内された視覚的シーンを識別する深度対応トランスフォーマーを提案する。
さらに、回答と視覚シーンの深度を関連付けるために、回答中の各単語に擬似深さをタグ付けして、回答語と対象との深度認識の関連性を実現する。
一方、MLLMとしてBLIP-2を用いて画像やテキストを処理し、特定の視覚オブジェクトを含むテキストの参照表現を言語オブジェクトラベルで修正し、理解しやすいMLLM入力として機能させる。
最後に,マルチレベル推論の信頼性に基づいて,データバッチの品質を十分に考慮するパラメータ最適化手法を考案した。
VCRデータセットの実験は、最先端アプローチよりも提案されたフレームワークの方が優れていることを示している。
関連論文リスト
- RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Proximity QA: Unleashing the Power of Multi-Modal Large Language Models
for Spatial Proximity Analysis [45.62657605766754]
MLLM(Multi-modal large language model)は、目覚しい視覚言語能力を示す。
Proximity QAはMLLMが画像内のオブジェクト間の近接関係を推測できるように設計された新しいフレームワークである。
我々は,深度知覚と近接解析における近接性QAの優れた能力を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-01-31T14:21:49Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - Contextual Object Detection with Multimodal Large Language Models [66.15566719178327]
本稿では,コンテキストオブジェクト検出の新たな研究課題について紹介する。
言語クローゼテスト,視覚キャプション,質問応答の3つの代表的なシナリオについて検討した。
本稿では、視覚的コンテキストのエンドツーエンドの微分可能なモデリングが可能な統合マルチモーダルモデルContextDETを提案する。
論文 参考訳(メタデータ) (2023-05-29T17:50:33Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations [61.870882736758624]
MV-TER (Multi-View Transformation Equivariant Representations) を学習するための新しい自己監督型パラダイムを提案する。
具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。
次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。
論文 参考訳(メタデータ) (2021-03-01T06:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。