論文の概要: HAM: Hierarchical Attention Model with High Performance for 3D Visual
Grounding
- arxiv url: http://arxiv.org/abs/2210.12513v1
- Date: Sat, 22 Oct 2022 18:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 17:21:11.942861
- Title: HAM: Hierarchical Attention Model with High Performance for 3D Visual
Grounding
- Title(参考訳): HAM:3次元視覚グラウンドのための高性能な階層的注意モデル
- Authors: Jiaming Chen, Weixin Luo, Xiaolin Wei, Lin Ma, Wei Zhang
- Abstract要約: 本稿では,ポイントクラウド上の3次元視覚的グラウンド化という,新たな視覚言語課題に取り組む。
与えられたテキストとマルチモーダルな視覚入力の両方に対して、多粒度表現と効率的な拡張を提供する新しい階層型注意モデル(HAM)を提案する。
Hamは、大規模なScanReferチャレンジでトップにランクインし、既存のすべてのメソッドをかなりの差で上回っている。
- 参考スコア(独自算出の注目度): 30.40075685188971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles an emerging and challenging vision-language task, 3D
visual grounding on point clouds. Many recent works benefit from Transformer
with the well-known attention mechanism, leading to a tremendous breakthrough
for this task. However, we find that they realize the achievement by using
various pre-training or multi-stage processing. To simplify the pipeline, we
carefully investigate 3D visual grounding and propose three fundamental
questions about how to develop an end-to-end model with high performance for
this task. To address these problems, we especially introduce a novel
Hierarchical Attention Model (HAM), offering multi-granularity representation
and efficient augmentation for both given texts and multi-modal visual inputs.
More importantly, HAM ranks first on the large-scale ScanRefer challenge, which
outperforms all the existing methods by a significant margin. Codes will be
released after acceptance.
- Abstract(参考訳): 本稿では,ポイントクラウド上の3次元視覚的グラウンド化という,新たな視覚言語課題に取り組む。
最近の多くの研究は、よく知られた注意機構を備えたTransformerの恩恵を受けている。
しかし,様々な事前学習や多段階処理を用いて達成できることがわかった。
パイプラインを単純化するため,我々は3次元の視覚的接地を慎重に検討し,この課題に対して高性能なエンド・ツー・エンドモデルの開発方法に関する3つの基本的な質問を提案する。
これらの問題に対処するために、特に、与えられたテキストとマルチモーダルな視覚入力の両方に対して、多粒度表現と効率的な拡張を提供する新しい階層型注意モデル(HAM)を導入する。
さらに重要なことは、HAMは大規模なScanReferチャレンジで第一位であり、既存のメソッドのマージンを大きく上回っている。
コードは受理後にリリースされる。
関連論文リスト
- SeCG: Semantic-Enhanced 3D Visual Grounding via Cross-modal Graph
Attention [19.23636231942245]
設計したメモリグラフアテンション層を用いたグラフネットワークに基づくセマンティック・エンハンスド・リレーショナル学習モデルを提案する。
本手法は,従来の言語に依存しないエンコーディングを,視覚解析におけるクロスモーダルエンコーディングに置き換える。
ReferIt3D と ScanRefer のベンチマーク実験の結果,提案手法は既存の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-13T02:11:04Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - Joint Visual Grounding and Tracking with Natural Language Specification [6.695284124073918]
自然言語仕様による追跡は、自然言語記述に基づくシーケンス内の参照対象の特定を目的としている。
統合されたタスクとしてグラウンドとトラッキングを再構成する統合的な視覚的グラウンドとトラッキングフレームワークを提案する。
本手法は,トラッキングとグラウンドの両方において,最先端のアルゴリズムに対して良好に動作する。
論文 参考訳(メタデータ) (2023-03-21T17:09:03Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - MUTATT: Visual-Textual Mutual Guidance for Referring Expression
Comprehension [16.66775734538439]
参照式理解は、自然言語の参照式により、与えられた画像中のテキスト関連領域をローカライズすることを目的としている。
我々はRECにおいて参照表現と対象領域は意味論的に相関していると主張している。
視覚と言語間の相互指導を構築するために,MutAttと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-18T03:14:58Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。