論文の概要: Formalising lexical and syntactic diversity for data sampling in French
- arxiv url: http://arxiv.org/abs/2501.08003v1
- Date: Tue, 14 Jan 2025 10:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 13:25:35.945377
- Title: Formalising lexical and syntactic diversity for data sampling in French
- Title(参考訳): フランス語におけるデータサンプリングのための語彙的および構文的多様性の定式化
- Authors: Louis Estève, Manon Scholivet, Agata Savary,
- Abstract要約: ランダムサンプリングに対する多様性は著しく増大する。
様々な種類の多様性(語彙と構文の多様性)が、高価な構文の多様性をサンプリングする目的と相関しているかどうかを考察する。
これは、任意に選択された測度が、データセットの多様性に関連する特性を捉えていないことを示している。
- 参考スコア(独自算出の注目度): 0.7947120571256026
- License:
- Abstract: Diversity is an important property of datasets and sampling data for diversity is useful in dataset creation. Finding the optimally diverse sample is expensive, we therefore present a heuristic significantly increasing diversity relative to random sampling. We also explore whether different kinds of diversity -- lexical and syntactic -- correlate, with the purpose of sampling for expensive syntactic diversity through inexpensive lexical diversity. We find that correlations fluctuate with different datasets and versions of diversity measures. This shows that an arbitrarily chosen measure may fall short of capturing diversity-related properties of datasets.
- Abstract(参考訳): 多様性はデータセットの重要な特性であり、多様性のためのデータのサンプリングはデータセットの作成に有用である。
最適に多様なサンプルを見つけることは高価であるため、ランダムサンプリングと比較してヒューリスティックな多様性が著しく増加する。
我々はまた、安価な語彙多様性を通じて高価な構文多様性をサンプリングすることを目的として、様々な種類の多様性(語彙と構文の多様性)が相関するかどうかについても検討する。
相関は異なるデータセットと多様性尺度のバージョンで変動する。
これは、任意に選択された測度が、データセットの多様性に関連する特性を捉えていないことを示している。
関連論文リスト
- Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL [51.48239006107272]
本稿では,テキスト・ツー・ダイバーシティ研究における実証の多様性を計測し,改善する方法について論じる。
我々は,高多様性のデモンストレーションプールを構築するために,デモ(Fused)のために反復的に融合することを提案する。
本手法は,複数の主流データセットにラベルを付けることなく,平均3.2%と5.0%の改善を実現する。
論文 参考訳(メタデータ) (2024-02-16T13:13:18Z) - Diversity Measurement and Subset Selection for Instruction Tuning
Datasets [40.930387018872786]
決定点プロセスを用いて、サブセット選択のための命令チューニングデータセットの多様性と品質をキャプチャする。
興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
論文 参考訳(メタデータ) (2024-02-04T02:09:43Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data [11.46958089612243]
LLM(Large Language Models)の事前トレーニングのトレンドは、主にモデルとデータセットサイズのスケーリングに焦点を当てている。
事前学習データの質は強力なLDMを訓練する上で重要な要素であると考えられているが、厳格に評価されていない誤った概念である。
本稿では,データ品質の1つの重要な側面 - 自然言語データの多様性を計測する -- の形式化を,多様性係数と呼ぶ尺度を用いて提案する。
論文 参考訳(メタデータ) (2023-06-24T02:25:56Z) - Interpretable Diversity Analysis: Visualizing Feature Representations In
Low-Cost Ensembles [0.0]
本稿では,多様性を定性的に分析できるいくつかの解釈可能性手法を提案する。
2つの低コストアンサンブルアルゴリズムを用いて,子ネットワーク間の特徴表現の多様性を比較することによって,これらの手法を実証する。
論文 参考訳(メタデータ) (2023-02-12T00:32:03Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Implicit Data Augmentation Using Feature Interpolation for Diversified
Low-Shot Image Generation [11.4559888429977]
生成モデルのトレーニングは、低データ設定で容易に発散することができる。
そこで本研究では,安定したトレーニングと多様なサンプルの合成を容易にする,新しい暗黙的データ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-12-04T23:55:46Z) - Expressivity of Parameterized and Data-driven Representations in Quality
Diversity Search [111.06379262544911]
2つの異なる検索空間で実施した品質多様性進化探索の出力多様性を比較する。
学習モデルは、未知の例への外挿や拡大よりも、既知のデータポイント間の補間が優れている。
論文 参考訳(メタデータ) (2021-05-10T10:27:43Z) - Relationship-aware Multivariate Sampling Strategy for Scientific
Simulation Data [4.2855912967712815]
本研究では,元の変数関係を保存する多変量サンプリング戦略を提案する。
提案手法は主成分分析を用いて多変量データの分散を抽出し, 単一変数に対する既存の最先端サンプリングアルゴリズム上に構築することができる。
論文 参考訳(メタデータ) (2020-08-31T00:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。