論文の概要: What's in a Caption? Dataset-Specific Linguistic Diversity and Its
Effect on Visual Description Models and Metrics
- arxiv url: http://arxiv.org/abs/2205.06253v1
- Date: Thu, 12 May 2022 17:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 12:30:49.356349
- Title: What's in a Caption? Dataset-Specific Linguistic Diversity and Its
Effect on Visual Description Models and Metrics
- Title(参考訳): 字幕には何があるの?
データセット特有の言語的多様性と視覚記述モデルとメトリクスへの影響
- Authors: David M. Chan, Austin Myers, Sudheendra Vijayanarasimhan, David A.
Ross, Bryan Seybold, John F. Canny
- Abstract要約: キャプションの多様性は、ジェネリックキャプションの生成の背後にある主要な要因であることがわかった。
現状のモデルでは、現代のメトリクスの根拠となる真実のキャプションよりも優れています。
- 参考スコア(独自算出の注目度): 14.624063829492764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While there have been significant gains in the field of automated video
description, the generalization performance of automated description models to
novel domains remains a major barrier to using these systems in the real world.
Most visual description methods are known to capture and exploit patterns in
the training data leading to evaluation metric increases, but what are those
patterns? In this work, we examine several popular visual description datasets,
and capture, analyze, and understand the dataset-specific linguistic patterns
that models exploit but do not generalize to new domains. At the token level,
sample level, and dataset level, we find that caption diversity is a major
driving factor behind the generation of generic and uninformative captions. We
further show that state-of-the-art models even outperform held-out ground truth
captions on modern metrics, and that this effect is an artifact of linguistic
diversity in datasets. Understanding this linguistic diversity is key to
building strong captioning models, we recommend several methods and approaches
for maintaining diversity in the collection of new data, and dealing with the
consequences of limited diversity when using current models and metrics.
- Abstract(参考訳): 自動ビデオ記述の分野では大きな進歩があったが、新しいドメインへの自動記述モデルの一般化性能は、これらのシステムを現実世界で使用する上で大きな障壁となっている。
ほとんどの視覚的記述法は、評価指標の増加につながるトレーニングデータのパターンをキャプチャして活用することが知られていますが、そのパターンは何でしょうか?
本研究では、いくつかの一般的な視覚的記述データセットを調査し、モデルが活用するが、新しいドメインに一般化しないデータセット固有の言語パターンをキャプチャ、分析、理解する。
トークンレベル、サンプルレベル、データセットレベルでは、キャプションの多様性がジェネリックキャプションの生成の背後にある主要な要因であることがわかった。
さらに,現在最先端のモデルが,現代のメトリクスの接頭辞よりも優れており,この効果がデータセットの言語的多様性の成果であることを示す。
この言語的多様性を理解することは、強力なキャプションモデルを構築する上で鍵となるものであり、我々は、新しいデータの収集における多様性を維持するためのいくつかの方法とアプローチを推奨する。
関連論文リスト
- Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。
約960万の視覚言語対のデータセットをVHR画像で収集しました。
結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T06:36:08Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - Distribution Aware Metrics for Conditional Natural Language Generation [3.6350564275444173]
既存のメトリクスは、視覚的記述や、基底真理が意味論的に多様であるような要約のような領域には適さないと論じる。
条件付き言語生成モデルのマルチ候補評価のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-15T17:58:13Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Efficient Multi-Modal Embeddings from Structured Data [0.0]
マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。
ビジュアルグラウンドは言語アプリケーションにも貢献できる。
新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
論文 参考訳(メタデータ) (2021-10-06T08:42:09Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。