論文の概要: Hypernymization of named entity-rich captions for grounding-based
multi-modal pretraining
- arxiv url: http://arxiv.org/abs/2304.13130v1
- Date: Tue, 25 Apr 2023 20:17:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 16:33:41.996251
- Title: Hypernymization of named entity-rich captions for grounding-based
multi-modal pretraining
- Title(参考訳): 接地型マルチモーダルプリトレーニングのための名前付きエンティティリッチキャプションのハイパーニミゼーション
- Authors: Giacomo Nebbia, Adriana Kovashka
- Abstract要約: 本稿では,複数モーダルモデルの事前学習のための名前付きエンティティを扱う方法として,ハイパニミゼーションについて検討する。
ハイパニミゼーション後の対象物に対する事前学習性能の改善を報告した。
オープンボキャブラリ検出におけるハイパーネーミングの可能性を,特にトレーニング中に見られないクラスで示す。
- 参考スコア(独自算出の注目度): 36.75629570208193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named entities are ubiquitous in text that naturally accompanies images,
especially in domains such as news or Wikipedia articles. In previous work,
named entities have been identified as a likely reason for low performance of
image-text retrieval models pretrained on Wikipedia and evaluated on named
entities-free benchmark datasets. Because they are rarely mentioned, named
entities could be challenging to model. They also represent missed learning
opportunities for self-supervised models: the link between named entity and
object in the image may be missed by the model, but it would not be if the
object were mentioned using a more common term. In this work, we investigate
hypernymization as a way to deal with named entities for pretraining
grounding-based multi-modal models and for fine-tuning on open-vocabulary
detection. We propose two ways to perform hypernymization: (1) a ``manual''
pipeline relying on a comprehensive ontology of concepts, and (2) a ``learned''
approach where we train a language model to learn to perform hypernymization.
We run experiments on data from Wikipedia and from The New York Times. We
report improved pretraining performance on objects of interest following
hypernymization, and we show the promise of hypernymization on open-vocabulary
detection, specifically on classes not seen during training.
- Abstract(参考訳): 名前付きエンティティは、画像に自然に付随するテキスト、特にニュースやwikipediaの記事のようなドメインにおいてユビキタスである。
これまでの研究で、wikipediaで事前トレーニングされ、名前付きエンティティフリーのベンチマークデータセットで評価された画像テキスト検索モデルの低パフォーマンスの理由として、名前付きエンティティが挙げられてきた。
滅多に言及されないため、名前付きエンティティはモデル化が難しい場合がある。
画像内の名前付きエンティティとオブジェクトの間のリンクは、モデルによって見逃されるかもしれないが、オブジェクトがより一般的な用語で言及された場合ではない。
本研究では,複数モーダルモデルの事前学習やオープン語彙検出の微調整のための名前付きエンティティを扱う方法として,ハイパニミゼーションについて検討する。
ハイパーnymizationを行うには,(1)概念の包括的オントロジーに依存する‘manual’パイプライン,(2)言語モデルを学習してハイパーnymizationを行う‘learned’アプローチの2つの方法を提案する。
ウィキペディアやThe New York Timesのデータに関する実験を行っている。
ハイパーnym化後の関心対象の事前学習性能の向上を報告し,特にトレーニング中に見ないクラスにおいて,オープンボキャブラリー検出におけるハイパーnym化の期待を示す。
関連論文リスト
- DyVo: Dynamic Vocabularies for Learned Sparse Retrieval with Entities [29.716152560414738]
学習されたスパース検索(LSR)モデルをウィキペディアの概念と実体で拡張する。
3つのエンティティリッチなドキュメントランキングデータセットを対象とした実験では、結果のDyVoモデルは、最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2024-10-10T08:41:34Z) - ResVG: Enhancing Relation and Semantic Understanding in Multiple Instances for Visual Grounding [42.10086029931937]
ビジュアルグラウンドティングは、自然言語クエリに基づいて画像に参照されるオブジェクトをローカライズすることを目的としている。
既存の手法では、画像に複数の障害がある場合、大幅な性能低下を示す。
本稿では,Relation and Semantic-sensitive Visual Grounding (ResVG)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-29T07:32:01Z) - Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Multicultural Name Recognition For Previously Unseen Names [65.268245109828]
本論文は、人名の認識を改善することを目的としており、それは、誰かが生まれたり、名前を変えたりする際にも、成長できる多様なカテゴリーである。
私は103か国の名前を見て、モデルが異なる文化の名前でどれだけうまく機能するかを比較します。
文字入力と単語入力を組み合わせたモデルの方が単語のみのモデルより優れており,従来のNERモデルと比較して精度が向上する可能性がある。
論文 参考訳(メタデータ) (2024-01-23T17:58:38Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Focus! Relevant and Sufficient Context Selection for News Image
Captioning [69.36678144800936]
News Image Captioningは、ニュース記事から追加のコンテキストを活用することで、画像を記述する必要がある。
本稿では,事前学習された視覚・言語検索モデルであるCLIPを用いて,ニュース記事中の視覚的根拠を持つエンティティをローカライズすることを提案する。
我々の実験は、記事からより良いコンテキストを選択するだけで、既存のモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-12-01T20:00:27Z) - Exploiting Unlabeled Data with Vision and Language Models for Object
Detection [64.94365501586118]
堅牢で汎用的なオブジェクト検出フレームワークを構築するには、より大きなラベルスペースとより大きなトレーニングデータセットへのスケーリングが必要である。
本稿では,近年の視覚と言語モデルで利用可能なリッチなセマンティクスを利用して,未ラベル画像中のオブジェクトのローカライズと分類を行う手法を提案する。
生成した擬似ラベルの価値を,オープン語彙検出と半教師付きオブジェクト検出の2つのタスクで示す。
論文 参考訳(メタデータ) (2022-07-18T21:47:15Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - HyperBox: A Supervised Approach for Hypernym Discovery using Box
Embeddings [0.0]
ハイパニム発見のためのボックス埋め込みを学習するための新しいモデルHyperBoxを提案する。
入力項が与えられたら、HyperBoxはターゲットコーパスから適切なハイパーネムを取得する。
評価基準の大部分が既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-05T08:46:50Z) - A Realistic Study of Auto-regressive Language Models for Named Entity
Typing and Recognition [7.345578385749421]
メタ学習装置を用いて、名前付きエンティティ認識のための事前学習言語モデルについて検討する。
まず、ゼロショット転送シナリオにおいて、名前付きエンティティ型付け(NET)をテストする。次に、推論の例をいくつか挙げて、NERを実行する。
本稿では,事前学習したモデルにのみアクセス可能で,これらのグループについて報告する際,見知らぬ名前や稀な名前を選択する手法を提案する。
論文 参考訳(メタデータ) (2021-08-26T15:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。