論文の概要: Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions
- arxiv url: http://arxiv.org/abs/2005.01655v1
- Date: Mon, 4 May 2020 17:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 00:01:55.760940
- Title: Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions
- Title(参考訳): 単語は不十分, 順序は重要: 視覚的参照表現の基盤化の頑健性について
- Authors: Arjun R Akula, Spandana Gella, Yaser Al-Onaizan, Song-Chun Zhu, Siva
Reddy
- Abstract要約: 視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
- 参考スコア(独自算出の注目度): 87.33156149634392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual referring expression recognition is a challenging task that requires
natural language understanding in the context of an image. We critically
examine RefCOCOg, a standard benchmark for this task, using a human study and
show that 83.7% of test instances do not require reasoning on linguistic
structure, i.e., words are enough to identify the target object, the word order
doesn't matter. To measure the true progress of existing models, we split the
test set into two sets, one which requires reasoning on linguistic structure
and the other which doesn't. Additionally, we create an out-of-distribution
dataset Ref-Adv by asking crowdworkers to perturb in-domain examples such that
the target object changes. Using these datasets, we empirically show that
existing methods fail to exploit linguistic structure and are 12% to 23% lower
in performance than the established progress for this task. We also propose two
methods, one based on contrastive learning and the other based on multi-task
learning, to increase the robustness of ViLBERT, the current state-of-the-art
model for this task. Our datasets are publicly available at
https://github.com/aws/aws-refcocog-adv
- Abstract(参考訳): 視覚的参照表現認識は、画像のコンテキストにおける自然言語理解を必要とする課題である。
このタスクの標準ベンチマークであるrefcocogを人間による研究を用いて批判的に検証し、83.7%のテストインスタンスが言語構造について推論を必要とせず、すなわち、単語は対象オブジェクトを識別するのに十分であり、単語の順序は重要ではないことを示した。
既存のモデルの真の進捗を測定するために、私たちはテストセットを2つのセットに分けました。
さらに、ターゲットオブジェクトが変化するようなドメイン内の例を乱すように、crowdworkersに依頼することで、分散データセットref-advを作成します。
これらのデータセットを用いて,既存の手法では言語構造を活用できず,本課題の確立した進歩よりも12%から23%性能が低下することを示す。
また,マルチタスク学習に基づくコントラスト学習と,マルチタスク学習に基づく2つの手法を提案し,その課題に対する現在の最先端モデルであるViLBERTのロバスト性を高める。
私たちのデータセットはhttps://github.com/aws/aws-refcocog-advで公開されています。
関連論文リスト
- Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control [43.860799289234755]
本稿では,特定のタスクの文脈における特徴辞書を評価するためのフレームワークを提案する。
まず,教師付き辞書は,タスクにおけるモデル計算の近似,制御,解釈性に優れることを示す。
GPT-2 Small を用いた間接オブジェクト識別(IOI)タスクに適用し,IOI や OpenWebText のデータセットで訓練したスパースオートエンコーダ (SAE) を用いた。
論文 参考訳(メタデータ) (2024-05-14T07:07:13Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding [35.01174511816063]
教師あり学習のための疑似言語クエリを自動生成するPseudo-Qという新しい手法を提案する。
本手法は,市販の物体検出装置を利用して,ラベルのない画像から視覚物体を識別する。
マルチレベル・クロスモーダルアテンション機構を備えた視覚言語モデルを開発した。
論文 参考訳(メタデータ) (2022-03-16T09:17:41Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Multi-task Learning of Negation and Speculation for Targeted Sentiment
Classification [15.85111852764517]
対象の感情モデルが言語現象、特に否定や憶測に対して堅牢ではないことを示す。
本稿では,否定や投機的スコープ検出など,構文的・意味的補助的タスクからの情報を組み込むマルチタスク学習手法を提案する。
否定的サンプルと投機的サンプルのモデル性能を評価するために、2つの課題データセットを作成します。
論文 参考訳(メタデータ) (2020-10-16T11:20:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。