論文の概要: Generating Synthetic Oracle Datasets to Analyze Noise Impact: A Study on Building Function Classification Using Tweets
- arxiv url: http://arxiv.org/abs/2503.22856v1
- Date: Fri, 28 Mar 2025 20:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:37:00.018396
- Title: Generating Synthetic Oracle Datasets to Analyze Noise Impact: A Study on Building Function Classification Using Tweets
- Title(参考訳): 騒音影響分析のための合成Oracleデータセットの生成:つぶやきを用いた建物機能分類に関する研究
- Authors: Shanshan Bai, Anna Kruspe, Xiaoxiang Zhu,
- Abstract要約: ビルディング関数(BFC)では、ツイートはジオグラフィックを使用して収集され、外部データベースを通じてラベル付けされる。
文レベルの特徴雑音の影響は、主に制御分析のためのクリーンなベンチマークデータセットが欠如していることから、まだ探索されていない。
本研究では,LLMを用いた合成データセット生成手法を提案する。
- 参考スコア(独自算出の注目度): 16.88765929875316
- License:
- Abstract: Tweets provides valuable semantic context for earth observation tasks and serves as a complementary modality to remote sensing imagery. In building function classification (BFC), tweets are often collected using geographic heuristics and labeled via external databases, an inherently weakly supervised process that introduces both label noise and sentence level feature noise (e.g., irrelevant or uninformative tweets). While label noise has been widely studied, the impact of sentence level feature noise remains underexplored, largely due to the lack of clean benchmark datasets for controlled analysis. In this work, we propose a method for generating a synthetic oracle dataset using LLM, designed to contain only tweets that are both correctly labeled and semantically relevant to their associated buildings. This oracle dataset enables systematic investigation of noise impacts that are otherwise difficult to isolate in real-world data. To assess its utility, we compare model performance using Naive Bayes and mBERT classifiers under three configurations: real vs. synthetic training data, and cross-domain generalization. Results show that noise in real tweets significantly degrades the contextual learning capacity of mBERT, reducing its performance to that of a simple keyword-based model. In contrast, the clean synthetic dataset allows mBERT to learn effectively, outperforming Naive Bayes Bayes by a large margin. These findings highlight that addressing feature noise is more critical than model complexity in this task. Our synthetic dataset offers a novel experimental environment for future noise injection studies and is publicly available on GitHub.
- Abstract(参考訳): つぶやきは地球観測のタスクに貴重な意味的コンテキストを提供し、リモートセンシング画像の補完的なモダリティとして機能する。
ビルディング関数分類(BFC)では、ツイートは地理的ヒューリスティックスを用いて収集され、外部データベースを通じてラベル付けされることが多い。
ラベルノイズは広く研究されているが、文レベルの特徴雑音の影響は、主に制御分析のためのクリーンなベンチマークデータセットが欠如していることから、未調査のままである。
本研究では,LLMを用いた合成オラクルデータセットの生成手法を提案する。
このオラクルデータセットは、現実のデータの中で孤立し難いノイズの影響を体系的に調査することを可能にする。
実用性を評価するため,NIVEベイズとmBERT分類器を用いたモデル性能を,実データと合成トレーニングデータ,ドメイン間一般化の3つの構成で比較した。
その結果、実ツイートのノイズはmBERTの文脈学習能力を著しく低下させ、単純なキーワードベースモデルに性能を低下させることがわかった。
対照的に、クリーンな合成データセットはmBERTを効果的に学習し、ネイブベイズベイズを大きなマージンで上回る。
これらの結果は、このタスクにおけるモデルの複雑さよりも、特徴ノイズに対処することが重要であることを示している。
私たちの合成データセットは、将来のノイズ注入研究のための新しい実験環境を提供し、GitHubで公開されています。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Group Benefits Instances Selection for Data Purification [21.977432359384835]
ラベルノイズと戦う既存の方法は通常、合成データセット上で設計およびテストされる。
本稿では,合成および実世界の両方のデータセットに対するノイズラベル問題を緩和するGRIPという手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T03:06:19Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Towards Harnessing Feature Embedding for Robust Learning with Noisy
Labels [44.133307197696446]
ディープニューラルネットワーク(DNN)の記憶効果は,近年のラベルノイズ学習法において重要な役割を担っている。
ラベルノイズを用いたディープラーニングのための新しい特徴埋め込み方式, LabEl Noise Dilution (LEND) を提案する。
論文 参考訳(メタデータ) (2022-06-27T02:45:09Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - Training Classifiers that are Universally Robust to All Label Noise
Levels [91.13870793906968]
ディープニューラルネットワークは、ラベルノイズの存在下で過度に適合する傾向がある。
ポジティヴ・アンラベルラーニングの新たなサブカテゴリを取り入れた蒸留ベースのフレームワークを提案する。
我々の枠組みは概して中~高騒音レベルにおいて優れています。
論文 参考訳(メタデータ) (2021-05-27T13:49:31Z) - Generation and Analysis of Feature-Dependent Pseudo Noise for Training
Deep Neural Networks [0.0]
ノイズの多いラベル付きデータセット上でディープニューラルネットワーク(DNN)をトレーニングすることは難しい問題である。
そこで我々は,DNNのトレーニング予測を,真のラベル情報を保持するクリーンデータセット上で利用することにより,特徴依存型ノイズデータセットを作成するための直感的なアプローチを提案する。
我々は,Pseudoノイズデータセットが,異なる条件における特徴依存ノイズデータセットに類似していることを確認するために,いくつかの実験を行った。
論文 参考訳(メタデータ) (2021-05-22T19:15:26Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。