論文の概要: RefCrowd: Grounding the Target in Crowd with Referring Expressions
- arxiv url: http://arxiv.org/abs/2206.08172v1
- Date: Thu, 16 Jun 2022 13:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 15:56:51.785313
- Title: RefCrowd: Grounding the Target in Crowd with Referring Expressions
- Title(参考訳): refcrowd:参照表現で群衆のターゲットを接地する
- Authors: Heqian Qiu, Hongliang Li, Taijin Zhao, Lanxiao Wang, Qingbo Wu and
Fanman Meng
- Abstract要約: 提案するRefCrowdは,対象人物を対象人物として参照表現で検索する。
自然言語情報を十分に掘り下げるだけでなく、ターゲットと類似した外見を持つ人々の群衆の微妙な違いに注意する必要がある。
また,群衆理解におけるREFを扱うために,FMAC(Fulti-modal Attribute Contrastive Network)を提案する。
- 参考スコア(独自算出の注目度): 20.822504213866726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd understanding has aroused the widespread interest in vision domain due
to its important practical significance. Unfortunately, there is no effort to
explore crowd understanding in multi-modal domain that bridges natural language
and computer vision. Referring expression comprehension (REF) is such a
representative multi-modal task. Current REF studies focus more on grounding
the target object from multiple distinctive categories in general scenarios. It
is difficult to applied to complex real-world crowd understanding. To fill this
gap, we propose a new challenging dataset, called RefCrowd, which towards
looking for the target person in crowd with referring expressions. It not only
requires to sufficiently mine the natural language information, but also
requires to carefully focus on subtle differences between the target and a
crowd of persons with similar appearance, so as to realize the fine-grained
mapping from language to vision. Furthermore, we propose a Fine-grained
Multi-modal Attribute Contrastive Network (FMAC) to deal with REF in crowd
understanding. It first decomposes the intricate visual and language features
into attribute-aware multi-modal features, and then captures discriminative but
robustness fine-grained attribute features to effectively distinguish these
subtle differences between similar persons. The proposed method outperforms
existing state-of-the-art (SoTA) methods on our RefCrowd dataset and existing
REF datasets. In addition, we implement an end-to-end REF toolbox for the
deeper research in multi-modal domain. Our dataset and code can be available
at: \url{https://qiuheqian.github.io/datasets/refcrowd/}.
- Abstract(参考訳): 群衆の理解は、その重要な実用的重要性から、視覚領域への広範な関心を喚起している。
残念ながら、自然言語とコンピュータビジョンを橋渡しするマルチモーダルドメインの大衆理解を探求する努力はありません。
参照式理解(REF)は、そのような代表的なマルチモーダルタスクである。
現在のREF研究は、一般的なシナリオにおいて、対象対象を複数の異なるカテゴリから基礎づけることに焦点を当てている。
複雑な現実世界の群衆の理解には適用が難しい。
このギャップを埋めるため,我々は,群衆内の対象者を参照表現で探すための,refcrowdと呼ばれる新しい挑戦的データセットを提案する。
自然言語情報を十分にマイニングする必要があるだけでなく、言語から視覚への細かなマッピングを実現するために、ターゲットと類似の人物群との微妙な違いに慎重に焦点を合わせる必要がある。
さらに,群衆理解におけるREFを扱うためのFMAC(Fulti-modal Attribute Contrastive Network)を提案する。
まず、複雑な視覚的特徴と言語的特徴を属性対応のマルチモーダル特徴に分解し、識別的だが頑健な属性特徴を捉え、類似した人物間の微妙な違いを効果的に識別する。
提案手法は,RefCrowdデータセットおよび既存のREFデータセット上で,既存の最先端(SoTA)メソッドよりも優れている。
さらに,マルチモーダルドメインのより深い研究のために,エンドツーエンドのREFツールボックスを実装した。
私たちのデータセットとコードは、 \url{https://qiuheqian.github.io/datasets/refcrowd/}で利用できます。
関連論文リスト
- FineCops-Ref: A new Dataset and Task for Fine-Grained Compositional Referring Expression Comprehension [10.482908189805872]
Referring Expression (REC) は言語理解能力、画像理解能力、言語と画像の接地能力を客観的に評価する重要なクロスモーダルタスクである。
我々は2つの重要な特徴を特徴とする新しいRECデータセットを構築した。
これには、既存のデータに基づいて微細な編集と生成によって作成された否定的なテキストと画像が含まれる。
論文 参考訳(メタデータ) (2024-09-23T06:56:51Z) - More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。
VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。
提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文 参考訳(メタデータ) (2024-08-26T05:52:35Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Multi-source Semantic Graph-based Multimodal Sarcasm Explanation
Generation [53.97962603641629]
本稿では,mulTi-source sEmantic grAph-based Multimodal sarcasm explanation scheme, TEAMを提案する。
TEAMは、入力画像から従来のグローバルな視覚的特徴の代わりに、オブジェクトレベルのセマンティックメタデータを抽出する。
TEAMはマルチソース意味関係を包括的に特徴付けるマルチソース意味グラフを導入している。
論文 参考訳(メタデータ) (2023-06-29T03:26:10Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - OmDet: Large-scale vision-language multi-dataset pre-training with
multimodal detection network [17.980765138522322]
この研究は、新しい言語対応のオブジェクト検出アーキテクチャであるOmDetを紹介した。
自然言語を普遍的な知識表現として活用することで、OmDetは多様なデータセットから"視覚語彙"を蓄積する。
我々は,OmDetが野生におけるオブジェクト検出,オープンボキャブラリ検出,句接地において,強いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-10T14:25:14Z) - Self-paced Multi-grained Cross-modal Interaction Modeling for Referring
Expression Comprehension [21.000045864213327]
参照表現理解(REC)は一般的に、正確な推論を実現するために、視覚的・言語的モダリティの多種多様な情報を必要とする。
異なるモダリティから多粒度情報を集約し、ハードな例から豊富な知識を抽出する方法は、RECタスクにおいて不可欠である。
本稿では,言語と視覚のローカライズ機能を改善するセルフペースト・マルチモーダル・インタラクション・モデリング・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T08:32:47Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - AXM-Net: Cross-Modal Context Sharing Attention Network for Person Re-ID [20.700750237972155]
クロスモーダルな人物識別(Re-ID)は、現代のビデオ監視システムにおいて重要である。
主な課題は、人に存在する意味情報に従ってモダリティ間表現を整合させ、背景情報を無視することです。
AXM-Netは、意味的に整列された視覚およびテキスト表現を学習するために設計された新しいCNNベースのアーキテクチャである。
論文 参考訳(メタデータ) (2021-01-19T16:06:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。