論文の概要: Squeeze Out Tokens from Sample for Finer-Grained Data Governance
- arxiv url: http://arxiv.org/abs/2503.14559v1
- Date: Tue, 18 Mar 2025 04:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:19.383097
- Title: Squeeze Out Tokens from Sample for Finer-Grained Data Governance
- Title(参考訳): ファイナグラインドデータガバナンスのためのサンプルからトークンを抽出する
- Authors: Weixiong Lin, Chen Ju, Haicheng Wang, Shengchao Hu, Shuai Xiao, Mengting Chen, Yuheng Jiao, Mingshuai Yao, Jinsong Lan, Qingwen Liu, Ying Chen,
- Abstract要約: 私たちは、データガバナンスを、"願望"アプローチから"願望"アプローチにアップグレードします。
当社のデュアルブランチDataJuicerは、よりきめ細かいサンプル内ガバナンスを適用しています。
情報トークンを絞り出し、画像テキストアライメントを強化します。
- 参考スコア(独自算出の注目度): 13.976060747887471
- License:
- Abstract: Widely observed data scaling laws, in which error falls off as a power of the training size, demonstrate the diminishing returns of unselective data expansion. Hence, data governance is proposed to downsize datasets through pruning non-informative samples. Yet, isolating the impact of a specific sample on overall model performance is challenging, due to the vast computation required for tryout all sample combinations. Current data governors circumvent this complexity by estimating sample contributions through heuristic-derived scalar scores, thereby discarding low-value ones. Despite thorough sample sieving, retained samples contain substantial undesired tokens intrinsically, underscoring the potential for further compression and purification. In this work, we upgrade data governance from a 'sieving' approach to a 'juicing' one. Instead of scanning for least-flawed samples, our dual-branch DataJuicer applies finer-grained intra-sample governance. It squeezes out informative tokens and boosts image-text alignments. Specifically, the vision branch retains salient image patches and extracts relevant object classes, while the text branch incorporates these classes to enhance captions. Consequently, DataJuicer yields more refined datasets through finer-grained governance. Extensive experiments across datasets demonstrate that DataJuicer significantly outperforms existing DataSieve in image-text retrieval, classification, and dense visual reasoning.
- Abstract(参考訳): 広範に観察されたデータスケーリング法則は、トレーニングサイズのパワーとしてエラーが脱落し、非選択的なデータ拡張のリターンが低下することを示す。
したがって、データガバナンスは、非表現的なサンプルを刈り取ることによってデータセットを縮小するために提案される。
しかし、全てのサンプルの組み合わせを試すのに必要な膨大な計算のために、モデル全体のパフォーマンスに対する特定のサンプルの影響を分離することは困難である。
現在のデータ管理者は、ヒューリスティック由来のスカラースコアを通じてサンプルコントリビューションを見積もることで、この複雑さを回避する。
徹底的なサンプル採取にもかかわらず、保存されたサンプルには本来望ましくない重要なトークンが含まれており、さらなる圧縮と浄化の可能性を示している。
この作業では、データガバナンスを、"判断"アプローチから"判断"アプローチにアップグレードします。
最小限のサンプルをスキャンする代わりに、デュアルブランチのDataJuicerはよりきめ細かいサンプル内ガバナンスを適用します。
情報トークンを絞り出し、画像テキストアライメントを強化します。
具体的には、ビジョンブランチは健全なイメージパッチを保持し、関連するオブジェクトクラスを抽出し、テキストブランチはこれらのクラスを組み込んでキャプションを強化する。
その結果、DataJuicerはよりきめ細かいガバナンスを通じてより洗練されたデータセットを得る。
データセット間の大規模な実験により、DataJuicerは画像テキスト検索、分類、密度の高い視覚的推論において、既存のDataSieveを大幅に上回っている。
関連論文リスト
- DRUPI: Dataset Reduction Using Privileged Information [20.59889438709671]
データセットリダクション(DR)は、ターゲットタスクのパフォーマンスを維持しながら、大規模なデータセットからより小さなサブセットにサンプルを選択または蒸留する。
本稿では,DRUPI(Privleged Information)を用いたデータセットリダクションについて紹介する。
我々の研究結果によると、効果的な特徴ラベルは過度に差別的かつ過度に多様性があり、中程度のレベルがデータセットの有効性を改善するのに最適であることが判明した。
論文 参考訳(メタデータ) (2024-10-02T14:49:05Z) - Conditional Semi-Supervised Data Augmentation for Spam Message Detection with Low Resource Data [0.0]
本研究では,データの可用性に欠けるスパム検出モデルに対して,条件付き半教師付きデータ拡張を提案する。
トレーニングデータを拡張するために、ラベルのないデータをデータ拡張に活用する。
潜在変数は、最終分類器の入力としてラベル付きおよびラベルなしのデータから得ることができる。
論文 参考訳(メタデータ) (2024-07-06T07:51:24Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Dataset Distillation via Factorization [58.8114016318593]
既存のデータセット蒸留(DD)ベースラインに移植可能なプラグ・アンド・プレイ戦略であるEmphHaBaと呼ばれるEmphdataset Factorizationアプローチを導入する。
emphHaBaは、データセットをデータemphHallucinationネットワークとemphBaseの2つのコンポーネントに分解する方法を探っている。
提案手法は, 圧縮パラメータの総数を最大65%削減しつつ, 下流の分類タスクを従来に比べて大幅に改善することができる。
論文 参考訳(メタデータ) (2022-10-30T08:36:19Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Fair Representations by Compression [19.26754855778295]
そこで本研究では,デコーダに直接提供された場合,擬似表現はセンシティブな属性に関する情報をフィルタリングすべきであることを示す。
表現ビットストリームのエントロピーの明示的な制御により、ユーザはレート歪みとレートフェアネス曲線の両方に沿って、スムーズかつ同時に動くことができる。
論文 参考訳(メタデータ) (2021-05-28T18:22:07Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。