論文の概要: Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model
Performance and Annotation Cost
- arxiv url: http://arxiv.org/abs/2403.07687v1
- Date: Tue, 12 Mar 2024 14:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:12:20.544935
- Title: Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model
Performance and Annotation Cost
- Title(参考訳): 予算に関するアノテーション: バランスモデルのパフォーマンスとアノテーションコストに対するジオデータ類似性を活用する
- Authors: Oana Ignat, Longju Bai, Joan Nwatu, Rada Mihalcea
- Abstract要約: モデルの性能とアノテーションのコストのバランスをとるためにアノテートするデータを特定する手法を提案する。
私たちのアプローチはまず、トレーニングデータセットにあるものと最も視覚的に異なるトピックのイメージを持つ国を見つけることです。
次に、これらのトピックに高い視覚的類似性を持つ国を特定し、これらの国のデータを用いてトレーニングデータを補完することで、モデルの性能を改善し、アノテーションのコストを削減できることを示す。
- 参考スコア(独自算出の注目度): 28.3552578648979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current foundation models have shown impressive performance across various
tasks. However, several studies have revealed that these models are not
effective for everyone due to the imbalanced geographical and economic
representation of the data used in the training process. Most of this data
comes from Western countries, leading to poor results for underrepresented
countries. To address this issue, more data needs to be collected from these
countries, but the cost of annotation can be a significant bottleneck. In this
paper, we propose methods to identify the data to be annotated to balance model
performance and annotation costs. Our approach first involves finding the
countries with images of topics (objects and actions) most visually distinct
from those already in the training datasets used by current large
vision-language foundation models. Next, we identify countries with higher
visual similarity for these topics and show that using data from these
countries to supplement the training data improves model performance and
reduces annotation costs. The resulting lists of countries and corresponding
topics are made available at
https://github.com/MichiganNLP/visual_diversity_budget.
- Abstract(参考訳): 現在の基礎モデルは、様々なタスクで素晴らしいパフォーマンスを示している。
しかし、これらのモデルが訓練プロセスで使用されるデータの地理的・経済的不均衡な表現のため、全員にとって効果的ではないことがいくつかの研究で明らかになっている。
これらのデータのほとんどは西側諸国からのもので、少数国での結果は乏しい。
この問題に対処するには、これらの国からより多くのデータを集める必要があるが、アノテーションのコストは重大なボトルネックとなる可能性がある。
本稿では,モデルの性能とアノテーションコストのバランスをとるために,注釈付データを特定する手法を提案する。
私たちのアプローチは、まず、現在の大規模ビジョン言語の基礎モデルで使用されているトレーニングデータセットで、最も視覚的に異なるトピック(オブジェクトとアクション)のイメージを持つ国を見つけることです。
次に、これらのトピックに高い視覚的類似性を持つ国を特定し、これらの国のデータを用いてトレーニングデータを補完することで、モデルの性能を改善し、アノテーションのコストを削減できることを示す。
国と関連するトピックの一覧はhttps://github.com/MichiganNLP/visual_diversity_budget.comで公開されている。
関連論文リスト
- The Data Addition Dilemma [4.869513274920574]
医療タスクのための多くの機械学習では、標準データセットは、多くの、基本的に異なるソースにまたがるデータを集約することによって構築される。
しかし、いつより多くのデータを追加することが助けになるのか、いつ、実際の設定で望ましいモデル結果の進行を妨げるのか?
この状況をtextitData Addition Dilemma と認識し、このマルチソーススケーリングコンテキストにトレーニングデータを追加すると、全体的な精度が低下し、不確実なフェアネスの結果が減少し、最悪のサブグループのパフォーマンスが低下することを示した。
論文 参考訳(メタデータ) (2024-08-08T01:42:31Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Bridging the Digital Divide: Performance Variation across Socio-Economic
Factors in Vision-Language Models [31.868468221653025]
異なる収入値に関連付けられた世帯画像を含むジオディバースデータセット上での視覚言語モデル(CLIP)の性能を評価する。
以上の結果から,貧しいグループに対するパフォーマンスは,様々なトピックや国における富裕層よりも一貫して低いことが示唆された。
論文 参考訳(メタデータ) (2023-11-09T21:10:52Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation [107.72926721837726]
粗いアノテーションは、セマンティックセグメンテーションモデルをトレーニングするための、低コストで非常に効果的な代替手段である。
粗い注釈付きデータの未ラベル領域の擬似ラベルを生成する粗大な自己学習フレームワークを提案する。
提案手法は,アノテーションの予算のごく一部で完全に注釈付けされたデータに匹敵する性能が得られるため,大幅な性能向上とアノテーションのコストトレードオフを実現する。
論文 参考訳(メタデータ) (2022-12-15T15:43:42Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - On the Economics of Multilingual Few-shot Learning: Modeling the
Cost-Performance Trade-offs of Machine Translated and Manual Data [12.638781962950805]
本稿では,機械翻訳データと手作業で作成したラベル付きデータのパフォーマンスとコストのトレードオフを評価するためのフレームワークを提案する。
本稿では,TyDIQA-GoldPデータセットのケーススタディによるフレームワークの有効性について述べる。
論文 参考訳(メタデータ) (2022-05-12T20:27:01Z) - Fortunately, Discourse Markers Can Enhance Language Models for Sentiment
Analysis [13.149482582098429]
本稿では、感情伝達型談話マーカーを利用して、大規模に弱いラベル付きデータを生成することを提案する。
ファイナンスドメインを含むさまざまなベンチマークデータセットにアプローチの価値を示す。
論文 参考訳(メタデータ) (2022-01-06T12:33:47Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。