論文の概要: Ordered Semantically Diverse Sampling for Textual Data
- arxiv url: http://arxiv.org/abs/2503.10698v1
- Date: Wed, 12 Mar 2025 06:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:23.259549
- Title: Ordered Semantically Diverse Sampling for Textual Data
- Title(参考訳): テキストデータに対する順序付き横サンプリング
- Authors: Ashish Tiwari, Mukul Singh, Ananya Singha, Arjun Radhakrishna,
- Abstract要約: 順序付きサンプルリストの多様性を計測する新しい指標に基づいて、順序付き多様なサンプリング問題を導入する。
埋め込みベクトルの主成分を用いたテキストデータに対して順序付き多様なサンプルを生成する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 6.280814487955095
- License:
- Abstract: The goal of diversity sampling is to select a representative subset of data in a way that maximizes information contained in the subset while keeping its cardinality small. We introduce the ordered diverse sampling problem based on a new metric that measures the diversity in an ordered list of samples. We present a novel approach for generating ordered diverse samples for textual data that uses principal components on the embedding vectors. The proposed approach is simple and compared with existing approaches using the new metric. We transform standard text classification benchmarks into benchmarks for ordered diverse sampling. Our empirical evaluation shows that prevailing approaches perform 6% to 61% worse than our method while also being more time inefficient. Ablation studies show how the parts of the new approach contribute to the overall metrics.
- Abstract(参考訳): 多様性サンプリングの目標は、その濃度を小さく保ちながら、サブセットに含まれる情報を最大化する方法で、データの代表的なサブセットを選択することである。
順序付きサンプルリストの多様性を計測する新しい指標に基づいて、順序付き多様なサンプリング問題を導入する。
埋め込みベクトルの主成分を用いたテキストデータに対して順序付き多様なサンプルを生成する新しい手法を提案する。
提案手法は単純であり,既存手法との比較を行った。
標準テキスト分類ベンチマークを、順序付き多様なサンプリングのためのベンチマークに変換する。
実験により,本手法よりも6%から61%,非効率性も良好であることが確認された。
アブレーション研究は、新しいアプローチが全体的なメトリクスにどのように貢献するかを示している。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - AdaSelection: Accelerating Deep Learning Training through Data
Subsampling [27.46630703428186]
適応型サブサンプリング手法であるAdaSelectionを導入し,各ミニバッチ内の最も情報性の高いサブサンプルを同定する。
業界標準のベースラインと比較すると、AdaSelectionは一貫して優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-06-19T07:01:28Z) - Efficient Failure Pattern Identification of Predictive Algorithms [15.02620042972929]
本稿では,人間のアノテータチームとシーケンシャルレコメンデーションアルゴリズムからなる人間機械協調フレームワークを提案する。
その結果、様々な信号対雑音比で複数のデータセット上でのフレームワークの競合性能を実証的に実証した。
論文 参考訳(メタデータ) (2023-06-01T14:54:42Z) - Finding Support Examples for In-Context Learning [73.90376920653507]
本稿では,この課題を2段階に解決するためのfilter-thEN-Search法であるLENSを提案する。
まず、データセットをフィルタリングして、個別に情報的インコンテキストの例を得る。
そこで本研究では,反復的に改良し,選択したサンプル順列を評価可能な多様性誘導型サンプル探索を提案する。
論文 参考訳(メタデータ) (2023-02-27T06:32:45Z) - Leveraging Importance Weights in Subset Selection [45.54597544672441]
本稿では,任意のモデルファミリを実用的なバッチ設定で扱うように設計されたサブセット選択アルゴリズムを提案する。
我々のアルゴリズムであるIWeSは、各サンプルに割り当てられたサンプリング確率が、以前選択されたバッチで訓練されたモデルのエントロピーに基づいて、重要サンプリングによってサンプルを選択する。
論文 参考訳(メタデータ) (2023-01-28T02:07:31Z) - Text sampling strategies for predicting missing bibliographic links [0.0]
本稿では,自動文分類を行う際に,テキストをサンプリングする様々な手法を提案する。
文脈サイズと位置の異なる多くのサンプリング戦略について検討する。
本手法は,応用知的情報システムのレコメンデーションエンジンに使用することができる。
論文 参考訳(メタデータ) (2023-01-04T15:53:50Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - A Case Study on Sampling Strategies for Evaluating Neural Sequential
Item Recommendation Models [69.32128532935403]
負の項目をサンプリングする2つのよく知られた戦略は、一様ランダムサンプリングと人気によるサンプリングである。
我々は、現在最先端のシーケンシャルレコメンデータモデルを再評価する。
いずれのサンプリング戦略も,モデルの完全なランキングと比較すると,一貫性のないランキングを生成できることがわかった。
論文 参考訳(メタデータ) (2021-07-27T19:06:03Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。