論文の概要: Discriminative Triad Matching and Reconstruction for Weakly Referring
Expression Grounding
- arxiv url: http://arxiv.org/abs/2106.04053v1
- Date: Tue, 8 Jun 2021 02:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:43:15.343362
- Title: Discriminative Triad Matching and Reconstruction for Weakly Referring
Expression Grounding
- Title(参考訳): 弱参照表現接地のための識別的三値マッチングと再構成
- Authors: Mingjie Sun, Jimin Xiao, Eng Gee Lim, Si Liu, John Y. Goulermas
- Abstract要約: 従来の方法では、参照式に最もよくマッチするオブジェクト領域を抽出し、選択した領域からクエリ文を再構成する。
ここでは、問合せを1つまたは複数の識別三項に変換することができる解の基礎として識別三項が設計されている。
提案手法は、RefCOCO(39.21%)、RefCOCO+(39.18%)、RefCOCOg(43.24%)のデータセットで評価した場合、新しい最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 24.384777542958307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we are tackling the weakly-supervised referring expression
grounding task, for the localization of a referent object in an image according
to a query sentence, where the mapping between image regions and queries are
not available during the training stage. In traditional methods, an object
region that best matches the referring expression is picked out, and then the
query sentence is reconstructed from the selected region, where the
reconstruction difference serves as the loss for back-propagation. The existing
methods, however, conduct both the matching and the reconstruction
approximately as they ignore the fact that the matching correctness is unknown.
To overcome this limitation, a discriminative triad is designed here as the
basis to the solution, through which a query can be converted into one or
multiple discriminative triads in a very scalable way. Based on the
discriminative triad, we further propose the triad-level matching and
reconstruction modules which are lightweight yet effective for the
weakly-supervised training, making it three times lighter and faster than the
previous state-of-the-art methods. One important merit of our work is its
superior performance despite the simple and neat design. Specifically, the
proposed method achieves a new state-of-the-art accuracy when evaluated on
RefCOCO (39.21%), RefCOCO+ (39.18%) and RefCOCOg (43.24%) datasets, that is
4.17%, 4.08% and 7.8% higher than the previous one, respectively.
- Abstract(参考訳): 本稿では,画像領域とクエリ間のマッピングがトレーニング段階で利用できないクエリ文に基づいて,画像中の参照オブジェクトのローカライズを行うための,弱教師付き参照表現基盤タスクに対処する。
従来の方法では、参照表現に最もよくマッチするオブジェクト領域を抽出し、選択された領域からクエリ文を再構成し、再構成差がバックプロパゲーションの損失となる。
しかし,既存の手法は一致の正しさが不明であるという事実を無視するため,一致と復元の両方を行う。
この制限を克服するために、クエリを1つまたは複数の識別的トライアドに非常にスケーラブルな方法で変換できるソリューションの基盤として、判別的トライアドが設計されている。
識別的トライアドに基づいて,より軽量で,教師の少ないトレーニングに効果的で,従来の最先端手法の3倍軽量かつ高速なトライアドレベルマッチングおよび再構成モジュールを提案する。
私たちの仕事の重要なメリットの1つは、シンプルで巧妙な設計にもかかわらず、優れたパフォーマンスです。
具体的には、RefCOCO(39.21%)、RefCOCO+(39.18%)、RefCOCOg(43.24%)のデータセットで評価された場合、それぞれ4.17%、4.08%、および7.8%の新たな最先端精度を実現する。
関連論文リスト
- Referring Image Segmentation Using Text Supervision [44.27304699305985]
既存の参照画像(RIS)メソッドは、監視のために高価なピクセルレベルまたはボックスレベルのアノテーションを必要とするのが一般的である。
本稿では,対象の局所化問題を分類プロセスとして定式化するための,弱教師付きRISフレームワークを提案する。
我々のフレームワークは、既存の完全教師付きRISメソッドに対して有望な性能を達成しつつ、関連する領域から適応した最先端の弱教師付き手法より優れた性能を実現している。
論文 参考訳(メタデータ) (2023-08-28T13:40:47Z) - Counterfactual Cross-modality Reasoning for Weakly Supervised Video
Moment Localization [67.88493779080882]
ビデオモーメントのローカライゼーションは、自然言語クエリに従って、未トリミングされたビデオのターゲットセグメントを取得することを目的としている。
最近の研究は、マスキングクエリの再構築によって引き起こされるモダリティの類似性とは対照的である。
提案手法は, 対実的相互モダリティ推論法である。
論文 参考訳(メタデータ) (2023-08-10T15:45:45Z) - A Triplet-loss Dilated Residual Network for High-Resolution
Representation Learning in Image Retrieval [0.0]
ローカライゼーションなどのいくつかのアプリケーションでは、画像検索が最初のステップとして使用される。
本論文では,トレーニング可能なパラメータが少ない,単純かつ効率的な画像検索システムを提案する。
提案手法は三重項損失を有する拡張残差畳み込みニューラルネットワークの利点である。
論文 参考訳(メタデータ) (2023-03-15T07:01:44Z) - Composed Image Retrieval with Text Feedback via Multi-grained
Uncertainty Regularization [73.04187954213471]
粗い検索ときめ細かい検索を同時にモデル化する統合学習手法を提案する。
提案手法は、強いベースラインに対して+4.03%、+3.38%、+2.40%のRecall@50精度を達成した。
論文 参考訳(メタデータ) (2022-11-14T14:25:40Z) - Contrastive Learning Approach for Semi-Supervised Seismic Facies
Identification Using High-Confidence Representations [7.636880727970561]
本研究では, ラベルなしデータの特徴を用いた半教師付き耐震フェーシ同定手法を提案する。
我々は,SEAM AI と Netherlands F3 の2つの公的な地震探査実験を行い,提案モデルは F3 のアノテーションの 1% しか使用せず,90 以上のIOU スコアを達成している。
論文 参考訳(メタデータ) (2022-10-10T15:36:05Z) - Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised
Referring Expression Grounding [214.8003571700285]
Referring Expression Grounding (REG) は、言語表現によって記述されたイメージにおいて特定のターゲットをグラウンドすることを目的としている。
我々は、エンティティ強化適応再構築ネットワーク(EARN)を設計する。
EARNには、エンティティの強化、適応的な接地、協調的な再構築の3つのモジュールが含まれている。
論文 参考訳(メタデータ) (2022-07-18T05:30:45Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Rethinking Reconstruction Autoencoder-Based Out-of-Distribution
Detection [0.0]
リコンストラクションオートエンコーダに基づく手法は、入力再構成誤差を新規性対正規性の計量として用いることでこの問題に対処する。
本稿では, 意味的再構成, データの確実性分解, 正規化L2距離を導入し, 元の手法を大幅に改善する。
提案手法は,追加データや実装の困難さ,時間を要するパイプライン,さらには既知のクラスの分類精度を損なうことなく機能する。
論文 参考訳(メタデータ) (2022-03-04T09:04:55Z) - Efficient First-Order Contextual Bandits: Prediction, Allocation, and
Triangular Discrimination [82.52105963476703]
統計的学習、オンライン学習、その他における繰り返しのテーマは、低騒音の問題に対してより速い収束率が可能であることである。
1次保証は統計的およびオンライン学習において比較的よく理解されている。
三角識別と呼ばれる対数損失と情報理論量が一階保証を得る上で基本的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-07-05T19:20:34Z) - Iterative Shrinking for Referring Expression Grounding Using Deep
Reinforcement Learning [20.23920009396818]
我々は,問合せ文に従って対象オブジェクトをローカライズすることを目的とした,提案なし参照表現基底化タスクに取り組んでいる。
既存のプロポーザルフリー手法では、クエリ画像マッチングブランチを使用して、画像特徴マップの最高スコアをターゲットボックスセンターとして選択する。
対象を局所化するための反復的縮小機構を提案し,強化学習エージェントによって縮小方向が決定される。
論文 参考訳(メタデータ) (2021-03-09T02:36:45Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。