論文の概要: Iterative Shrinking for Referring Expression Grounding Using Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.05187v1
- Date: Tue, 9 Mar 2021 02:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 16:38:42.445204
- Title: Iterative Shrinking for Referring Expression Grounding Using Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習による表現接地参照のための反復シュリンキング
- Authors: Mingjie Sun, Jimin Xiao, Eng Gee Lim
- Abstract要約: 我々は,問合せ文に従って対象オブジェクトをローカライズすることを目的とした,提案なし参照表現基底化タスクに取り組んでいる。
既存のプロポーザルフリー手法では、クエリ画像マッチングブランチを使用して、画像特徴マップの最高スコアをターゲットボックスセンターとして選択する。
対象を局所化するための反復的縮小機構を提案し,強化学習エージェントによって縮小方向が決定される。
- 参考スコア(独自算出の注目度): 20.23920009396818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we are tackling the proposal-free referring expression
grounding task, aiming at localizing the target object according to a query
sentence, without relying on off-the-shelf object proposals. Existing
proposal-free methods employ a query-image matching branch to select the
highest-score point in the image feature map as the target box center, with its
width and height predicted by another branch. Such methods, however, fail to
utilize the contextual relation between the target and reference objects, and
lack interpretability on its reasoning procedure. To solve these problems, we
propose an iterative shrinking mechanism to localize the target, where the
shrinking direction is decided by a reinforcement learning agent, with all
contents within the current image patch comprehensively considered. Beside, the
sequential shrinking process enables to demonstrate the reasoning about how to
iteratively find the target. Experiments show that the proposed method boosts
the accuracy by 4.32% against the previous state-of-the-art (SOTA) method on
the RefCOCOg dataset, where query sentences are long and complex, with many
targets referred by other reference objects.
- Abstract(参考訳): 本稿では,対象オブジェクトをクエリ文に従ってローカライズすることを目的とした,提案不要な参照表現基底タスクに,既定のオブジェクト提案を頼らずに対処する。
既存の提案なしの方法は、クエリーイメージマッチングブランチを使用して、イメージ機能マップの最高スコアポイントをターゲットボックスセンターとして選択し、その幅と高さを別のブランチで予測します。
しかし、そのようなメソッドは、対象オブジェクトと参照オブジェクトの間のコンテキスト関係を利用できず、その推論手順の解釈可能性に欠けている。
そこで本研究では,既存の画像パッチ内の全ての内容を総合的に検討し,強化学習エージェントにより縮小方向を決定するターゲットを局所化する反復縮小機構を提案する。
同時に、シーケンシャルな縮小プロセスは、ターゲットを反復的に見つける方法に関する推論を実証することを可能にする。
実験では、この手法は、クエリ文が長く複雑なRefCOCOgデータセットの以前の最新(SOTA)メソッドに対して4.32%の精度を向上し、他の参照オブジェクトから多くのターゲットが参照されている。
関連論文リスト
- Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - Mutually-Aware Feature Learning for Few-Shot Object Counting [20.623402944601775]
追加のトレーニングを必要とせずに、与えられた例に基づいてクエリイメージに対象オブジェクトをカウントすることを目的としている。
本稿では,質問文と模範的特徴を相互に認識する,MAFEA(Mutually-Aware FEAture Learning)という新しいフレームワークを提案する。
本モデルでは, FSCD-LVIS と FSC-147 の2つのベンチマークにおいて, 目標混乱の程度を著しく低減し, 新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T06:46:24Z) - Revisiting Proposal-based Object Detection [59.97295544455179]
提案手法により画像中の物体を検出するパイプラインを再検討する。
我々は提案と根拠的真理の交わりの領域に回帰する単純な問題を解決する。
私たちの再検討されたアプローチは、検出パイプラインの変更を最小限にして、既存のメソッドにプラグインすることができます。
論文 参考訳(メタデータ) (2023-11-30T12:40:23Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Guiding Computational Stance Detection with Expanded Stance Triangle
Framework [25.2980607215715]
スタンス検出は、テキストの著者が指定されたターゲットに対して有利か、反対か、中立かを決定する。
本稿では,言語的観点からスタンス検出タスクを分解し,このタスクにおける重要な構成要素と推論経路について検討する。
論文 参考訳(メタデータ) (2023-05-31T13:33:29Z) - Fusing Local Similarities for Retrieval-based 3D Orientation Estimation
of Unseen Objects [70.49392581592089]
我々は,モノクロ画像から未確認物体の3次元配向を推定する作業に取り組む。
我々は検索ベースの戦略に従い、ネットワークがオブジェクト固有の特徴を学習するのを防ぐ。
また,LineMOD,LineMOD-Occluded,T-LESSのデータセットを用いた実験により,本手法が従来の手法よりもはるかに優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2022-03-16T08:53:00Z) - Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty
Regularization [73.03956876752868]
我々は、ネットワークがオブジェクトの他の部分に注意を払うことを可能にする、原則的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
具体的には、ミックスアップデータ拡張方式を分類ネットワークに導入し、2つの不確実な正規化項を設計し、ミックスアップ戦略をよりよく扱う。
論文 参考訳(メタデータ) (2020-08-03T21:19:08Z) - Weakly-Supervised Semantic Segmentation via Sub-category Exploration [73.03956876752868]
我々は、オブジェクトの他の部分に注意を払うために、ネットワークを強制する単純で効果的なアプローチを提案する。
具体的には、画像の特徴をクラスタリングして、アノテーション付き親クラスごとに擬似サブカテゴリラベルを生成する。
提案手法の有効性を検証し,提案手法が最先端手法に対して良好に機能することを示す。
論文 参考訳(メタデータ) (2020-08-03T20:48:31Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。