論文の概要: TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun
Distillation
- arxiv url: http://arxiv.org/abs/2210.10775v1
- Date: Wed, 19 Oct 2022 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 13:08:38.068575
- Title: TOIST: Task Oriented Instance Segmentation Transformer with Noun-Pronoun
Distillation
- Title(参考訳): toist: 名詞-名詞蒸留を伴うタスク指向インスタンスセグメンテーショントランスフォーマ
- Authors: Pengfei Li, Beiwen Tian, Yongliang Shi, Xiaoxue Chen, Hao Zhao, Guyue
Zhou, Ya-Qin Zhang
- Abstract要約: 現在の参照表現理解アルゴリズムは、名詞によって示されるオブジェクトを効果的に検出またはセグメント化することができるが、動詞の参照を理解する方法はまだ解明されていない。
本研究では, タスク指向検出の課題について検討し, 安らかに座るなど, 動詞によって示される行動に最も適する対象を見つけることを目的とした。
より詳細なローカライゼーションに向けて、タスク指向のインスタンスセグメンテーションに問題を拡張します。
- 参考スコア(独自算出の注目度): 6.065546855174586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current referring expression comprehension algorithms can effectively detect
or segment objects indicated by nouns, but how to understand verb reference is
still under-explored. As such, we study the challenging problem of task
oriented detection, which aims to find objects that best afford an action
indicated by verbs like sit comfortably on. Towards a finer localization that
better serves downstream applications like robot interaction, we extend the
problem into task oriented instance segmentation. A unique requirement of this
task is to select preferred candidates among possible alternatives. Thus we
resort to the transformer architecture which naturally models pair-wise query
relationships with attention, leading to the TOIST method. In order to leverage
pre-trained noun referring expression comprehension models and the fact that we
can access privileged noun ground truth during training, a novel noun-pronoun
distillation framework is proposed. Noun prototypes are generated in an
unsupervised manner and contextual pronoun features are trained to select
prototypes. As such, the network remains noun-agnostic during inference. We
evaluate TOIST on the large-scale task oriented dataset COCO-Tasks and achieve
+10.9% higher $\rm{mAP^{box}}$ than the best-reported results. The proposed
noun-pronoun distillation can boost $\rm{mAP^{box}}$ and $\rm{mAP^{mask}}$ by
+2.8% and +3.8%. Codes and models are publicly available at
https://github.com/AIR-DISCOVER/TOIST.
- Abstract(参考訳): 現在の参照表現理解アルゴリズムは、名詞で示されるオブジェクトを効果的に検出または分割することができるが、動詞の参照を理解する方法はまだ未検討である。
そこで本稿では, タスク指向検出の課題について検討し, 安楽に座るような動詞によって示される行動に最も適する対象を見つけることを目的とする。
ロボットインタラクションのような下流のアプリケーションにより良いローカライゼーションを提供するために、タスク指向のインスタンスセグメンテーションに問題を拡張します。
このタスクのユニークな要件は、選択肢の中から望ましい候補を選択することである。
そこで我々は,ペアワイズクエリ関係と注意関係を自然にモデル化するトランスフォーマーアーキテクチャを採用し,TOIST法に導いた。
事前学習した名詞参照表現の理解モデルと,訓練中に特権付き名詞接地真実にアクセスできるという事実を活用するために,新しい名詞-名詞蒸留フレームワークを提案する。
名詞のプロトタイプは教師なしの方法で生成され、文脈代名詞機能はプロトタイプを選択するために訓練される。
そのため、ネットワークは推論中も名詞を知らないままである。
我々は、大規模タスク指向データセットCOCO-Tasks上でTOISTを評価し、最も報告された結果よりも、+10.9%高い$\rm{mAP^{box}}を達成した。
提案された名詞-代名詞蒸留は$\rm{mAP^{box}}$と$\rm{mAP^{mask}}$を+2.8%、+3.8%押し上げることができる。
コードとモデルはhttps://github.com/AIR-DISCOVER/TOISTで公開されている。
関連論文リスト
- An Energy-based Model for Word-level AutoCompletion in Computer-aided Translation [97.3797716862478]
Word-level AutoCompletion (WLAC) は、コンピュータ支援翻訳における報奨だが挑戦的なタスクである。
既存の作業は、入力コンテキストの隠れベクターを対応するラベルにマッピングするニューラルネットワークに基づく分類モデルを通じて、このタスクに対処する。
そこで本研究では,WLACのエネルギーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-29T15:07:19Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - Auto-Vocabulary Semantic Segmentation [13.410217680999462]
textitAuto-Vocabulary Semantics (AVS)を導入する。
本フレームワークは,拡張BLIP埋め込みを用いて,関連クラス名を自律的に識別する。
提案手法は,PASCAL VOCやContext,ADE20K,Cityscapes for AVSなどのデータセットに新たなベンチマークを設定する。
論文 参考訳(メタデータ) (2023-12-07T18:55:52Z) - Segment and Caption Anything [126.20201216616137]
本稿では,地域キャプションを生成する機能を備えたセグメンション・アプライシング・モデルを提案する。
軽量なクエリベースの機能ミキサーを導入することで、地域固有の特徴と、後続キャプション生成のための言語モデルの埋め込み空間を整合させる。
提案手法の優位性を実証し,それぞれの設計選択を検証するために,広範な実験を行う。
論文 参考訳(メタデータ) (2023-12-01T19:00:17Z) - Pento-DIARef: A Diagnostic Dataset for Learning the Incremental
Algorithm for Referring Expression Generation from Examples [16.726800816202033]
本稿では,パズルの視覚領域における診断データセットであるPento-DIARefを紹介する。
視覚検出ステップと対象データ生成スキームによって支持されたモデルが,ほぼ完全なBLEU@1スコアと文の正確性を実現する。
論文 参考訳(メタデータ) (2023-05-24T12:05:53Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - GSRFormer: Grounded Situation Recognition Transformer with Alternate
Semantic Attention Refinement [73.73599110214828]
グラウンドドコンディション認識(GSR)は、人間のイベント理解のための画像の構造化されたセマンティックサマリーを生成することを目的としている。
オブジェクト検出とイメージキャプションタスクにインスパイアされた既存のメソッドは、2段階のフレームワークを使用するのが一般的である。
本稿では,動詞と役割の双方向関係の活用に焦点をあてた,新しい2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-18T17:13:59Z) - Rethinking the Two-Stage Framework for Grounded Situation Recognition [61.93345308377144]
接地状況認識は「人間のような」事象理解に向けた重要なステップである。
既存のGSR手法では、第1段階で動詞を予測し、第2段階での意味的役割を検出するという、2段階の枠組みを採用している。
本稿では,CFVM (Coarse-to-Fine Verb Model) と Transformer-based Noun Model (TNM) で構成される新しいGSR用SituFormerを提案する。
論文 参考訳(メタデータ) (2021-12-10T08:10:56Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。