論文の概要: Formalising lexical and syntactic diversity for data sampling in French
- arxiv url: http://arxiv.org/abs/2501.08003v1
- Date: Tue, 14 Jan 2025 10:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-15 17:02:04.444308
- Title: Formalising lexical and syntactic diversity for data sampling in French
- Title(参考訳): フランス語におけるデータサンプリングのための語彙的および構文的多様性の定式化
- Authors: Louis Estève, Manon Scholivet, Agata Savary,
- Abstract要約: ランダムサンプリングに対する多様性は著しく増大する。
様々な種類の多様性(語彙と構文の多様性)が、高価な構文の多様性をサンプリングする目的と相関しているかどうかを考察する。
これは、任意に選択された測度が、データセットの多様性に関連する特性を捉えていないことを示している。
- 参考スコア(独自算出の注目度): 0.7947120571256026
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diversity is an important property of datasets and sampling data for diversity is useful in dataset creation. Finding the optimally diverse sample is expensive, we therefore present a heuristic significantly increasing diversity relative to random sampling. We also explore whether different kinds of diversity -- lexical and syntactic -- correlate, with the purpose of sampling for expensive syntactic diversity through inexpensive lexical diversity. We find that correlations fluctuate with different datasets and versions of diversity measures. This shows that an arbitrarily chosen measure may fall short of capturing diversity-related properties of datasets.
- Abstract(参考訳): 多様性はデータセットの重要な特性であり、多様性のためのデータのサンプリングはデータセットの作成に有用である。
最適に多様なサンプルを見つけることは高価であるため、ランダムサンプリングと比較してヒューリスティックな多様性が著しく増加する。
我々はまた、安価な語彙多様性を通じて高価な構文多様性をサンプリングすることを目的として、様々な種類の多様性(語彙と構文の多様性)が相関するかどうかについても検討する。
相関は異なるデータセットと多様性尺度のバージョンで変動する。
これは、任意に選択された測度が、データセットの多様性に関連する特性を捉えていないことを示している。
関連論文リスト
- Evaluating the Diversity and Quality of LLM Generated Content [72.84945252821908]
品質閾値を満たす出力間の効果的な意味的多様性を測定するための枠組みを導入する。
嗜好調整モデルでは語彙的および構文的多様性が低下するが、SFTやベースモデルよりも効果的な意味的多様性が得られる。
これらの発見は、多種多様な高品質な出力を必要とするアプリケーションに重要な意味を持つ。
論文 参考訳(メタデータ) (2025-04-16T23:02:23Z) - Measuring Data Diversity for Instruction Tuning: A Systematic Analysis and A Reliable Metric [48.81957145701228]
サンプルレベルの「ノーベルティ」に基づく新しい多様性指標を提案する。
我々は,NovellSumが精度よく多様性の変動を捉え,命令調整モデルの性能と0.97の相関性が得られることを示す。
論文 参考訳(メタデータ) (2025-02-24T14:20:22Z) - Measuring Diversity in Synthetic Datasets [59.511610956067415]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクのための合成データセットを生成するために広く採用されている。
これらの合成データセットの多様性を正確に測定する - 堅牢なモデルのパフォーマンスに不可欠な側面は、大きな課題である。
分類の観点から,合成データセットの多様性を測定する新しい手法であるDCScoreを紹介する。
論文 参考訳(メタデータ) (2025-02-12T15:46:34Z) - Exploring and Controlling Diversity in LLM-Agent Conversation [17.38671584773247]
本稿では,発話生成プロンプトの内容を動的に調整して多様性を制御する新しい手法であるAdaptive Prompt Pruning (APP)を提案する。
APPはモデルやデータセット間のアウトプットの多様性を効果的に制御し、より多くの情報がより多様なアウトプットにつながる。
APPは温度サンプリングやトップpサンプリングといった確立した技術と互換性があり、多様性管理のための汎用的なツールを提供する。
論文 参考訳(メタデータ) (2024-12-30T17:25:58Z) - Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL [51.48239006107272]
本稿では,テキスト・ツー・ダイバーシティ研究における実証の多様性を計測し,改善する方法について論じる。
我々は,高多様性のデモンストレーションプールを構築するために,デモ(Fused)のために反復的に融合することを提案する。
本手法は,複数の主流データセットにラベルを付けることなく,平均3.2%と5.0%の改善を実現する。
論文 参考訳(メタデータ) (2024-02-16T13:13:18Z) - Diversity Measurement and Subset Selection for Instruction Tuning
Datasets [40.930387018872786]
決定点プロセスを用いて、サブセット選択のための命令チューニングデータセットの多様性と品質をキャプチャする。
興味のあるデータセットと最も多様な参照データセットとの距離であるログ決定距離でデータセットの多様性を測定することを提案する。
論文 参考訳(メタデータ) (2024-02-04T02:09:43Z) - Beyond Scale: The Diversity Coefficient as a Data Quality Metric for Variability in Natural Language Data [11.46958089612243]
LLM(Large Language Models)の事前トレーニングのトレンドは、主にモデルとデータセットサイズのスケーリングに焦点を当てている。
事前学習データの質は強力なLDMを訓練する上で重要な要素であると考えられているが、厳格に評価されていない誤った概念である。
本稿では,データ品質の1つの重要な側面 - 自然言語データの多様性を計測する -- の形式化を,多様性係数と呼ぶ尺度を用いて提案する。
論文 参考訳(メタデータ) (2023-06-24T02:25:56Z) - A Unified Theory of Diversity in Ensemble Learning [4.773356856466191]
本稿では,多様な教師付き学習シナリオにおける多様性の性質を説明する,アンサンブルの多様性の理論を提案する。
この挑戦は、30年以上にわたるオープンな研究課題であるアンサンブル学習の聖杯として言及されている。
論文 参考訳(メタデータ) (2023-01-10T13:51:07Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Exploring Diversity in Back Translation for Low-Resource Machine
Translation [85.03257601325183]
バックトランスフォーメーションは、ニューラルマシントランスフォーメーションシステムの性能を改善するために最も広く使われている手法の1つである。
近年の研究では、生成された翻訳の「多様性」を増大させることにより、この手法の有効性を高めることを目指している。
この研究は、トレーニングデータの多様性を理解し、それを語彙的多様性と構文的多様性に分割する、より微妙なフレームワークを推し進めている。
論文 参考訳(メタデータ) (2022-06-01T15:21:16Z) - Expressivity of Parameterized and Data-driven Representations in Quality
Diversity Search [111.06379262544911]
2つの異なる検索空間で実施した品質多様性進化探索の出力多様性を比較する。
学習モデルは、未知の例への外挿や拡大よりも、既知のデータポイント間の補間が優れている。
論文 参考訳(メタデータ) (2021-05-10T10:27:43Z) - Relationship-aware Multivariate Sampling Strategy for Scientific
Simulation Data [4.2855912967712815]
本研究では,元の変数関係を保存する多変量サンプリング戦略を提案する。
提案手法は主成分分析を用いて多変量データの分散を抽出し, 単一変数に対する既存の最先端サンプリングアルゴリズム上に構築することができる。
論文 参考訳(メタデータ) (2020-08-31T00:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。