論文の概要: DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
- arxiv url: http://arxiv.org/abs/2405.16071v1
- Date: Sat, 25 May 2024 05:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:19:52.415779
- Title: DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
- Title(参考訳): DynRefer:ダイナミックレゾリューションによる地域レベルのマルチモダリティタスクへの展開
- Authors: Yuzhong Zhao, Feng Liu, Yue Liu, Mingxiang Liao, Chen Gong, Qixiang Ye, Fang Wan,
- Abstract要約: 領域レベルのマルチモーダリティ手法は、参照画像領域を人間の好む言語記述に変換することができる。
残念ながら、固定的な視覚入力を用いた既存の手法の多くは、正確な言語記述を見つけるための解像度適応性に欠けていたままである。
そこで我々はDynReferと呼ばれるダイナミック・レゾリューション・アプローチを提案し、高精度な領域レベルの参照を追求する。
- 参考スコア(独自算出の注目度): 54.05367433562495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Region-level multi-modality methods can translate referred image regions to human preferred language descriptions. Unfortunately, most of existing methods using fixed visual inputs remain lacking the resolution adaptability to find out precise language descriptions. In this study, we propose a dynamic resolution approach, referred to as DynRefer, to pursue high-accuracy region-level referring through mimicking the resolution adaptability of human visual cognition. DynRefer first implements stochastic vision-language alignment. It aligns desired language descriptions of multi-modality tasks with images of stochastic resolution, which are constructed by nesting a set of views around the referred region. DynRefer then implements dynamic multi-modality referring, which is realized by selecting views based on image and language priors. This allows the visual information used for referring to better match human preferences, thereby improving the representational adaptability of region-level multi-modality models. Extensive experiments show that DynRefer brings mutual improvement upon tasks including region-level captioning, open-vocabulary region recognition and attribute detection. Last but not least, DynRefer achieves new state-of-the-art on multiple region-level multi-modality tasks using a single model. Code is available at https://github.com/callsys/DynRefer.
- Abstract(参考訳): 領域レベルのマルチモーダリティ手法は、参照画像領域を人間の好む言語記述に変換することができる。
残念ながら、固定的な視覚入力を用いた既存の手法の多くは、正確な言語記述を見つけるための解像度適応性に欠けていたままである。
本研究ではDynReferと呼ばれるダイナミック・レゾリューション・アプローチを提案し、人間の視覚認知の解像度適応性を模倣して高精度な領域レベルの参照を追求する。
DynReferはまず確率的視覚言語アライメントを実装する。
マルチモーダルタスクの言語記述を確率分解能の画像と整合させ、参照領域の周囲に一連のビューをネストすることで構築する。
次にDynReferは動的マルチモーダリティ参照を実装し、画像と言語の先行値に基づいてビューを選択することで実現される。
これにより、人間の嗜好に合った視覚情報を参照し、地域レベルのマルチモダリティモデルの表現適応性を向上させることができる。
広汎な実験により、DynReferは、領域レベルのキャプション、オープン語彙領域認識、属性検出などのタスクに相互改善をもたらすことが示された。
最後に、DynReferは、単一のモデルを使用して複数の領域レベルのマルチモダリティタスクにおいて、新しい最先端を実現する。
コードはhttps://github.com/callsys/DynRefer.comで入手できる。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - MultiRes-NetVLAD: Augmenting Place Recognition Training with
Low-Resolution Imagery [28.875236694573815]
我々は低解像度画像ピラミッド符号化によるNetVLAD表現学習を強化した。
結果として得られる多重解像度特徴ピラミッドは、VLADを介して1つのコンパクト表現に便利に集約することができる。
基礎となる学習機能テンソルと既存のマルチスケールアプローチを組み合わせることで,ベースライン性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-18T11:53:01Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。