論文の概要: A Unified Mutual Supervision Framework for Referring Expression
Segmentation and Generation
- arxiv url: http://arxiv.org/abs/2211.07919v1
- Date: Tue, 15 Nov 2022 06:08:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:51:42.234702
- Title: A Unified Mutual Supervision Framework for Referring Expression
Segmentation and Generation
- Title(参考訳): 表現のセグメンテーションと生成を参照するための統一的な相互監督枠組み
- Authors: Shijia Huang, Feng Li, Hao Zhang, Shilong Liu, Lei Zhang, Liwei Wang
- Abstract要約: 参照表現(RES)と参照表現生成(REG)は相互に逆タスクであり、自然に協調的に訓練することができる。
本稿では,2つのタスクを相互に改善できる統一的な相互監視フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.27400500728834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reference Expression Segmentation (RES) and Reference Expression Generation
(REG) are mutually inverse tasks that can be naturally jointly trained. Though
recent work has explored such joint training, the mechanism of how RES and REG
can benefit each other is still unclear. In this paper, we propose a unified
mutual supervision framework that enables two tasks to improve each other. Our
mutual supervision contains two directions. On the one hand, Disambiguation
Supervision leverages the expression unambiguity measurement provided by RES to
enhance the language generation of REG. On the other hand, Generation
Supervision uses expressions automatically generated by REG to scale up the
training of RES. Such unified mutual supervision effectively improves two tasks
by solving their bottleneck problems. Extensive experiments show that our
approach significantly outperforms all existing methods on REG and RES tasks
under the same setting, and detailed ablation studies demonstrate the
effectiveness of all components in our framework.
- Abstract(参考訳): 参照表現セグメンテーション(RES)と参照表現生成(REG)は、相互に逆タスクであり、自然に協調的に訓練することができる。
最近の研究はそのような共同トレーニングを探求しているが、RESとREGの相互利益のメカニズムはまだ不明である。
本稿では,2つのタスクを相互に改善できる統一的な相互監視フレームワークを提案する。
我々の相互監督には2つの方向が含まれる。
一方, Disambiguation Supervision は REG の言語生成を促進するために RES が提供する表現の不明瞭さの測定を利用する。
一方、Generation Supervisionでは、REGが自動生成する式を使用してRESのトレーニングをスケールアップする。
このような統合された相互監督は、ボトルネック問題を解決することによって2つのタスクを効果的に改善する。
大規模な実験により、我々の手法はREGおよびRESタスクの既存手法を同じ条件で大幅に上回り、詳細なアブレーション研究によりフレームワーク内の全てのコンポーネントの有効性が示された。
関連論文リスト
- Multi-branch Collaborative Learning Network for 3D Visual Grounding [66.67647903507927]
3D参照表現理解(3DREC)とセグメンテーション(3DRES)は重なり合う目標を持ち、コラボレーションの可能性を示している。
我々は,3DRECタスクと3DRESタスクに個別のブランチを採用することで,各タスクの特定の情報を学ぶ能力が向上すると主張している。
論文 参考訳(メタデータ) (2024-07-07T13:27:14Z) - RESMatch: Referring Expression Segmentation in a Semi-Supervised Manner [16.280644319404946]
Referring Expression segmentation (RES)は、自由形式の言語記述に基づいて特定のインスタンスレベルのオブジェクトをローカライズするタスクである。
本稿では、データアノテーションへの依存を減らすことを目的とした、RESのための最初の半教師付き学習(SSL)アプローチであるRESMatchを紹介する。
論文 参考訳(メタデータ) (2024-02-08T11:40:50Z) - Whether you can locate or not? Interactive Referring Expression
Generation [12.148963878497243]
本稿では,実際のRECモデルと対話可能な対話型REG(IREG)モデルを提案する。
IREGは、一般的な評価指標において、過去の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2023-08-19T10:53:32Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Towards Unifying Reference Expression Generation and Comprehension [22.72363956296498]
我々は、UniRefという名前のREGとRECの統一モデルを提案する。
画像クロスアテンションと領域クロスアテンションを介して画像、領域、テキストを融合するIRTF(Image-Region-Text Fusion Layer)によって、これら2つのタスクを統一する。
さらに,マルチグラニュラコーパス上でのUniRefモデルの事前学習に対して,VMLM(Vision- Conditioned Masked Language Modeling)とTRP(Text-Conditioned Region Prediction)を提案する。
論文 参考訳(メタデータ) (2022-10-24T09:53:41Z) - Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised
Referring Expression Grounding [214.8003571700285]
Referring Expression Grounding (REG) は、言語表現によって記述されたイメージにおいて特定のターゲットをグラウンドすることを目的としている。
我々は、エンティティ強化適応再構築ネットワーク(EARN)を設計する。
EARNには、エンティティの強化、適応的な接地、協調的な再構築の3つのモジュールが含まれている。
論文 参考訳(メタデータ) (2022-07-18T05:30:45Z) - Weakly Supervised Disentangled Representation for Goal-conditioned
Reinforcement Learning [15.698612710580447]
本稿では,サンプル効率の向上と政策一般化を目的としたスキル学習フレームワークDR-GRLを提案する。
本稿では,解釈可能かつ制御可能な表現を学習するための空間変換オートエンコーダ(STAE)を提案する。
DR-GRLは, 試料効率と政策一般化において, 従来の手法よりも有意に優れていたことを実証的に実証した。
論文 参考訳(メタデータ) (2022-02-28T09:05:14Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - Return-Based Contrastive Representation Learning for Reinforcement
Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。
アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-22T13:04:18Z) - Multi-task Collaborative Network for Joint Referring Expression
Comprehension and Segmentation [135.67558811281984]
表現理解(REC)とセグメンテーション(RES)を併用した共同学習を実現するための新しいマルチタスク協調ネットワーク(MCN)を提案する。
MCNでは、RESはRECがよりよい言語ビジョンアライメントを達成するのに役立ち、RECはRESが参照者を見つけるのに役立ちます。
我々は,このマルチタスク・セットアップにおいて,一貫性エネルギー最大化 (Consistency Energy Maximization, CEM) と適応ソフト非局所抑制 (Adaptive Soft Non-Located Suppression, ASNLS) という2つのイノベーティブな設計による予測競合という重要な課題に対処する。
論文 参考訳(メタデータ) (2020-03-19T14:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。