論文の概要: Differentiated Relevances Embedding for Group-based Referring Expression
Comprehension
- arxiv url: http://arxiv.org/abs/2203.06382v1
- Date: Sat, 12 Mar 2022 09:09:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 15:14:19.686182
- Title: Differentiated Relevances Embedding for Group-based Referring Expression
Comprehension
- Title(参考訳): グループに基づく参照表現理解のための微分関連埋め込み
- Authors: Fuhai Chen, Xiaoshuai Sun, Xuri Ge, Jianzhuang Liu, Yongjian Wu,
Feiyue Huang, Rongrong Ji
- Abstract要約: Referring Expression comprehension (REC) は、自然言語表現によって参照される画像中のある対象を特定することを目的としている。
そこで本研究では,グループ内領域-表現ペアを適応的に優先度に割り当てる,関連性誘導型マルチグループセルフペースト学習スキーマ(RMSL)を提案する。
- 参考スコア(独自算出の注目度): 144.4260687439158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression comprehension (REC) aims to locate a certain object in
an image referred by a natural language expression. For joint understanding of
regions and expressions, existing REC works typically target on modeling the
cross-modal relevance in each region-expression pair within each single image.
In this paper, we explore a new but general REC-related problem, named
Group-based REC, where the regions and expressions can come from different
subject-related images (images in the same group), e.g., sets of photo albums
or video frames. Different from REC, Group-based REC involves differentiated
cross-modal relevances within each group and across different groups, which,
however, are neglected in the existing one-line paradigm. To this end, we
propose a novel relevance-guided multi-group self-paced learning schema (termed
RMSL), where the within-group region-expression pairs are adaptively assigned
with different priorities according to their cross-modal relevances, and the
bias of the group priority is balanced via an across-group relevance constraint
simultaneously. In particular, based on the visual and textual semantic
features, RMSL conducts an adaptive learning cycle upon triplet ranking, where
(1) the target-negative region-expression pairs with low within-group
relevances are used preferentially in model training to distinguish the primary
semantics of the target objects, and (2) an across-group relevance
regularization is integrated into model training to balance the bias of group
priority. The relevances, the pairs, and the model parameters are alternatively
updated upon a unified self-paced hinge loss.
- Abstract(参考訳): reference expression comprehension(rec)は、自然言語表現で参照される画像中の特定のオブジェクトを見つけることを目的としている。
領域と表現の合同理解のために、既存のREC作業は通常、各画像内の各領域-表現対における相互関係をモデル化することを目的としている。
本稿では,グループベースRECという新たなREC関連問題について検討する。そこでは,写真アルバムやビデオフレームなど,異なる主題関連画像(同じグループ内のイメージ)から領域や表現を抽出する。
RECとは違って、グループベースのRECは、各グループと異なるグループ間での相互関係を区別するが、既存の一行パラダイムでは無視される。
そこで本研究では,グループ内領域圧縮ペアを相互関連性に応じて異なる優先度でアダプティブに割り当て,グループ間の関連性制約によってグループ優先度のバイアスを同時にバランスさせる,関連性誘導型マルチグループ自己対応学習スキーマ(RMSL)を提案する。
特に、視覚的およびテキスト的意味的特徴に基づいて、rmslは三重項ランキングにおいて適応学習サイクルを行い、(1)グループ内関連度の低い対象負の領域表現ペアは、対象オブジェクトの一次意味論を識別するためにモデルトレーニングにおいて優先的に使用され、(2)グループ全体関連正規化は、グループ優先のバイアスのバランスをとるためにモデルトレーニングに統合される。
関連性、ペア、およびモデルパラメータは、統一された自己ペースのヒンジ損失によって更新される。
関連論文リスト
- Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - Towards reporting bias in visual-language datasets: bimodal augmentation
by decoupling object-attribute association [23.06058982328083]
視覚言語データセットにおけるレポートバイアスの存在に焦点をあてる。
このバイアスを軽減するために,バイモーダル拡張(BiAug)アプローチを提案する。
BiAugは、リッチなオブジェクト-属性のペアリングで視覚言語例を合成し、クロスモーダルなハードネガティブを構築する。
論文 参考訳(メタデータ) (2023-10-02T16:48:50Z) - Co-Salient Object Detection with Semantic-Level Consensus Extraction and
Dispersion [27.120768849942145]
共塩物検出は、各画像の一般的な塩物を明らかにすることを目的としている。
意味レベルのコンセンサスを抽出する階層型トランスフォーマーモジュールを提案する。
Transformerベースの分散モジュールは、異なるシーンにおける共存オブジェクトの変動を考慮している。
論文 参考訳(メタデータ) (2023-09-14T14:39:07Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Improving Object Detection and Attribute Recognition by Feature
Entanglement Reduction [26.20319853343761]
オブジェクト検出は属性非依存であるべきであり、属性は主にオブジェクト非依存であることを示す。
我々は、カテゴリと属性の特徴を独立に計算する2ストリームモデルを用いて、それらを分離するが、分類ヘッドは興味の領域(RoIs)を共有する。
従来のシングルストリームモデルと比較すると,Visual GenomeのサブセットであるVG-20よりも,教師付きタスクと属性転送タスクにおいて大幅な改善が見られた。
論文 参考訳(メタデータ) (2021-08-25T22:27:06Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Attention Guided Semantic Relationship Parsing for Visual Question
Answering [36.84737596725629]
人間は視覚質問回答(VQA)のような視覚言語タスクを実行するのに必要な高レベルな理解を示す意味ラベルとのオブジェクト間関係を説明する
既存のVQAモデルは、モデルがマルチモーダルタスクを解決しようとしている間、単一のドメイン内のオブジェクト間の相互作用を表現することを制約するオブジェクトレベルの視覚的特徴の組み合わせとして関係を表現します。
本稿では、画像中の主観的対象物三重項ごとに意味的特徴ベクトルを生成する汎用意味関係と、重要な関係三重項を識別する相互自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-05T00:23:49Z) - Understanding Adversarial Examples from the Mutual Influence of Images
and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。
以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。
我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文 参考訳(メタデータ) (2020-07-13T05:00:09Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。