論文の概要: Differentiated Relevances Embedding for Group-based Referring Expression
Comprehension
- arxiv url: http://arxiv.org/abs/2203.06382v2
- Date: Fri, 2 Jun 2023 03:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 21:28:20.821571
- Title: Differentiated Relevances Embedding for Group-based Referring Expression
Comprehension
- Title(参考訳): グループに基づく参照表現理解のための微分関連埋め込み
- Authors: Fuhai Chen, Xuri Ge, Xiaoshuai Sun, Yue Gao, Jianzhuang Liu, Fufeng
Chen, Wenjie Li
- Abstract要約: 表現理解の参照の鍵は、モーダルな視覚言語的関連を捉えることである。
本稿では,グループ内オブジェクト-表現ペアを異なる優先順位で適応的に割り当てるマルチグループ自己評価関連学習スキーマを提案する。
3つの標準RECベンチマーク実験により,本手法の有効性と優位性を示した。
- 参考スコア(独自算出の注目度): 57.52186959089885
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The key of referring expression comprehension lies in capturing the
cross-modal visual-linguistic relevance. Existing works typically model the
cross-modal relevance in each image, where the anchor object/expression and
their positive expression/object have the same attribute as the negative
expression/object, but with different attribute values. These
objects/expressions are exclusively utilized to learn the implicit
representation of the attribute by a pair of different values, which however
impedes the accuracies of the attribute representations, expression/object
representations, and their cross-modal relevances since each anchor
object/expression usually has multiple attributes while each attribute usually
has multiple potential values. To this end, we investigate a novel REC problem
named Group-based REC, where each object/expression is simultaneously employed
to construct the multiple triplets among the semantically similar images. To
tackle the explosion of the negatives and the differentiation of the
anchor-negative relevance scores, we propose the multi-group self-paced
relevance learning schema to adaptively assign within-group object-expression
pairs with different priorities based on their cross-modal relevances. Since
the average cross-modal relevance varies a lot across different groups, we
further design an across-group relevance constraint to balance the bias of the
group priority. Experiments on three standard REC benchmarks demonstrate the
effectiveness and superiority of our method.
- Abstract(参考訳): 表現理解を参照する鍵は、モーダルな視覚言語関係を捉えることである。
既存の作業は通常、各画像における相互関係をモデル化し、アンカーオブジェクト/表現とその正の表現/オブジェクトは負の表現/オブジェクトと同じ属性を持つが、異なる属性値を持つ。
これらのオブジェクト/表現は、属性の暗黙的な表現を1対の異なる値で学習するためにのみ使用されるが、それぞれのアンカーオブジェクト/表現は通常複数の属性を持ち、各属性は通常複数の潜在的な値を持っているため、属性表現、表現/オブジェクト表現、およびそれらの相互モーダル関係の精度を阻害する。
この目的のために,グループベースRECと呼ばれる新しいREC問題について検討し,各オブジェクト/表現を同時に使用して,意味論的に類似した画像の複数の三重項を構成する。
負の爆発とアンカー負の妥当性スコアの分化に対処するために,多群自己ペースの妥当性学習スキーマを提案し,それらの相互モーダル関係に基づいて,グループ内のオブジェクト表現ペアを異なる優先順位でアダプティブに割り当てる。
平均的相互関連性は異なるグループ間で大きく異なるため、グループ優先のバイアスのバランスをとるために、グループ間の関連性制約をさらに設計する。
3つの標準RECベンチマーク実験により,本手法の有効性と優位性を示した。
関連論文リスト
- Enhancing Neural Subset Selection: Integrating Background Information into Set Representations [53.15923939406772]
対象値が入力集合とサブセットの両方に条件付けされている場合、スーパーセットのテクスティ不変な統計量を関心のサブセットに組み込むことが不可欠であることを示す。
これにより、出力値がサブセットとその対応するスーパーセットの置換に不変であることを保証する。
論文 参考訳(メタデータ) (2024-02-05T16:09:35Z) - Towards reporting bias in visual-language datasets: bimodal augmentation
by decoupling object-attribute association [23.06058982328083]
視覚言語データセットにおけるレポートバイアスの存在に焦点をあてる。
このバイアスを軽減するために,バイモーダル拡張(BiAug)アプローチを提案する。
BiAugは、リッチなオブジェクト-属性のペアリングで視覚言語例を合成し、クロスモーダルなハードネガティブを構築する。
論文 参考訳(メタデータ) (2023-10-02T16:48:50Z) - Co-Salient Object Detection with Semantic-Level Consensus Extraction and
Dispersion [27.120768849942145]
共塩物検出は、各画像の一般的な塩物を明らかにすることを目的としている。
意味レベルのコンセンサスを抽出する階層型トランスフォーマーモジュールを提案する。
Transformerベースの分散モジュールは、異なるシーンにおける共存オブジェクトの変動を考慮している。
論文 参考訳(メタデータ) (2023-09-14T14:39:07Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - Improving Object Detection and Attribute Recognition by Feature
Entanglement Reduction [26.20319853343761]
オブジェクト検出は属性非依存であるべきであり、属性は主にオブジェクト非依存であることを示す。
我々は、カテゴリと属性の特徴を独立に計算する2ストリームモデルを用いて、それらを分離するが、分類ヘッドは興味の領域(RoIs)を共有する。
従来のシングルストリームモデルと比較すると,Visual GenomeのサブセットであるVG-20よりも,教師付きタスクと属性転送タスクにおいて大幅な改善が見られた。
論文 参考訳(メタデータ) (2021-08-25T22:27:06Z) - Understanding Synonymous Referring Expressions via Contrastive Features [105.36814858748285]
画像とオブジェクトインスタンスレベルでのコントラスト機能を学ぶためのエンドツーエンドのトレーニング可能なフレームワークを開発しています。
提案アルゴリズムをいくつかのベンチマークデータセットで評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-04-20T17:56:24Z) - Attention Guided Semantic Relationship Parsing for Visual Question
Answering [36.84737596725629]
人間は視覚質問回答(VQA)のような視覚言語タスクを実行するのに必要な高レベルな理解を示す意味ラベルとのオブジェクト間関係を説明する
既存のVQAモデルは、モデルがマルチモーダルタスクを解決しようとしている間、単一のドメイン内のオブジェクト間の相互作用を表現することを制約するオブジェクトレベルの視覚的特徴の組み合わせとして関係を表現します。
本稿では、画像中の主観的対象物三重項ごとに意味的特徴ベクトルを生成する汎用意味関係と、重要な関係三重項を識別する相互自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-05T00:23:49Z) - Understanding Adversarial Examples from the Mutual Influence of Images
and Perturbations [83.60161052867534]
クリーンな画像と敵の摂動を遠ざけることで敵の例を分析し,その相互への影響を分析した。
以上の結果から,画像と普遍摂動の関係に対する新たな視点が示唆された。
我々は、オリジナルトレーニングデータを活用することなく、目標とするユニバーサルアタックの挑戦的なタスクを最初に達成した人物です。
論文 参考訳(メタデータ) (2020-07-13T05:00:09Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。