論文の概要: Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised
Referring Expression Grounding
- arxiv url: http://arxiv.org/abs/2207.08386v1
- Date: Mon, 18 Jul 2022 05:30:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 17:18:24.381007
- Title: Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised
Referring Expression Grounding
- Title(参考訳): 弱修正参照表現接地のためのエンティティ強化適応再構成ネットワーク
- Authors: Xuejing Liu, Liang Li, Shuhui Wang, Zheng-Jun Zha, Zechao Li, Qi Tian
and Qingming Huang
- Abstract要約: Referring Expression Grounding (REG) は、言語表現によって記述されたイメージにおいて特定のターゲットをグラウンドすることを目的としている。
我々は、エンティティ強化適応再構築ネットワーク(EARN)を設計する。
EARNには、エンティティの強化、適応的な接地、協調的な再構築の3つのモジュールが含まれている。
- 参考スコア(独自算出の注目度): 214.8003571700285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised Referring Expression Grounding (REG) aims to ground a
particular target in an image described by a language expression while lacking
the correspondence between target and expression. Two main problems exist in
weakly supervised REG. First, the lack of region-level annotations introduces
ambiguities between proposals and queries. Second, most previous weakly
supervised REG methods ignore the discriminative location and context of the
referent, causing difficulties in distinguishing the target from other
same-category objects. To address the above challenges, we design an
entity-enhanced adaptive reconstruction network (EARN). Specifically, EARN
includes three modules: entity enhancement, adaptive grounding, and
collaborative reconstruction. In entity enhancement, we calculate semantic
similarity as supervision to select the candidate proposals. Adaptive grounding
calculates the ranking score of candidate proposals upon subject, location and
context with hierarchical attention. Collaborative reconstruction measures the
ranking result from three perspectives: adaptive reconstruction, language
reconstruction and attribute classification. The adaptive mechanism helps to
alleviate the variance of different referring expressions. Experiments on five
datasets show EARN outperforms existing state-of-the-art methods. Qualitative
results demonstrate that the proposed EARN can better handle the situation
where multiple objects of a particular category are situated together.
- Abstract(参考訳): Referring Expression Grounding (REG) は、ターゲットと表現の対応性を欠きながら、言語表現によって記述された画像に特定のターゲットを接地することを目的としている。
弱い教師付きregには2つの大きな問題がある。
まず、リージョンレベルのアノテーションの欠如は、提案とクエリのあいまいさをもたらす。
第二に、以前のほとんどの弱い教師付きregメソッドは参照元の識別位置とコンテキストを無視し、他の同一のカテゴリオブジェクトとターゲットを区別するのが困難である。
上記の課題に対処するために、エンティティ強化適応再構築ネットワーク(EARN)を設計する。
具体的には、EARNはエンティティの強化、適応的な接地、協調的な再構築の3つのモジュールを含んでいる。
エンティティエンハンスメントでは、候補提案を選択するための管理として意味的類似性を計算する。
アダプティブ・グラウンドニングは、対象、場所、文脈における候補の提案のランキングスコアを階層的注意で計算する。
協調的再構成は、適応的再構成、言語再構成、属性分類の3つの視点からランキング結果を測定する。
適応機構は、異なる参照表現のばらつきを緩和するのに役立つ。
5つのデータセットの実験では、EARNは既存の最先端メソッドよりも優れています。
定性的な結果から,提案する成果は,特定のカテゴリの複数のオブジェクトが一緒に配置されている状況に対して,よりうまく対応できることが示される。
関連論文リスト
- REG: Refined Generalized Focal Loss for Road Asset Detection on Thai Highways Using Vision-Based Detection and Segmentation Models [0.0]
本稿では,タイの高速道路における重要道路資産の検出・分断のための新しい枠組みを提案する。
提案手法は,最先端の視覚に基づく検出・セグメンテーションモデルに統合され,クラス不均衡と,未表現の道路要素の局所化の課題に効果的に対処する。
論文 参考訳(メタデータ) (2024-09-15T22:04:33Z) - Coherent Entity Disambiguation via Modeling Topic and Categorical
Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。
本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。
我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-11-06T16:40:13Z) - Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language
Navigation [23.94546957057613]
クロスモーダルアライメントはビジョン・アンド・ランゲージ・ナビゲーション(VLN)の鍵となる課題である
本稿では,VLNタスクの事前学習パラダイムとして,GELA(Gunded Entity-Landmark Adaptive)を提案する。
論文 参考訳(メタデータ) (2023-08-24T06:25:20Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z) - A Cluster-based Approach for Improving Isotropy in Contextual Embedding
Space [18.490856440975996]
文脈的単語表現(CWR)における表現退化問題は、埋め込み空間の表現性を損なう。
本研究では,文脈埋め込み空間における縮退問題に対処する局所クラスタベースの手法を提案する。
動詞表現の主流方向を除去することで,空間をセマンティックな応用に適合させることが可能であることを示す。
論文 参考訳(メタデータ) (2021-06-02T14:26:37Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain
Adaptation using Structurally Regularized Deep Clustering [119.88565565454378]
Unsupervised Domain Adapt (UDA) は、ターゲットドメイン上のラベルなしデータの予測を行う分類モデルを学ぶことである。
本稿では,対象データの正規化判別クラスタリングと生成クラスタリングを統合する構造的正規化深層クラスタリングのハイブリッドモデルを提案する。
提案するH-SRDCは, インダクティブ設定とトランスダクティブ設定の両方において, 既存の手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-08T08:52:00Z) - Contextual-Relation Consistent Domain Adaptation for Semantic
Segmentation [44.19436340246248]
本稿では,革新的局所文脈相関整合ドメイン適応手法を提案する。
グローバルレベルのアライメントにおいて、地域レベルのコンピテンシーを達成することを目的としている。
実験では, 最先端手法と比較して, セグメンテーション性能が優れていることを示した。
論文 参考訳(メタデータ) (2020-07-05T19:00:46Z) - Harmonizing Transferability and Discriminability for Adapting Object
Detectors [48.78231850215302]
本稿では,特徴表現の伝達可能性を校正し,識別性を調和させる階層的伝達可能性ネットワーク(HTCN)を提案する。
実験の結果、HTCNはベンチマークデータセットで最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-03-13T13:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。