論文の概要: SubData: A Python Library to Collect and Combine Datasets for Evaluating LLM Alignment on Downstream Tasks
- arxiv url: http://arxiv.org/abs/2412.16783v1
- Date: Sat, 21 Dec 2024 21:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:51.974211
- Title: SubData: A Python Library to Collect and Combine Datasets for Evaluating LLM Alignment on Downstream Tasks
- Title(参考訳): SubData: 下流タスクでLLMアライメントを評価するデータセットの収集と組み合わせを行うPythonライブラリ
- Authors: Leon Fröhling, Pietro Bernardelle, Gianluca Demartini,
- Abstract要約: SubDataはPythonライブラリで、アノテーションタスクの主観性に関連するトピックに取り組む研究者に、適切なデータセットを収集、組み合わせ、使用するための便利な方法を提供する。
- 参考スコア(独自算出の注目度): 4.04666623219944
- License:
- Abstract: With the release of ever more capable large language models (LLMs), researchers in NLP and related disciplines have started to explore the usability of LLMs for a wide variety of different annotation tasks. Very recently, a lot of this attention has shifted to tasks that are subjective in nature. Given that the latest generations of LLMs have digested and encoded extensive knowledge about different human subpopulations and individuals, the hope is that these models can be trained, tuned or prompted to align with a wide range of different human perspectives. While researchers already evaluate the success of this alignment via surveys and tests, there is a lack of resources to evaluate the alignment on what oftentimes matters the most in NLP; the actual downstream tasks. To fill this gap we present SubData, a Python library that offers researchers working on topics related to subjectivity in annotation tasks a convenient way of collecting, combining and using a range of suitable datasets.
- Abstract(参考訳): より有能な大規模言語モデル(LLM)のリリースにより、NLPと関連する分野の研究者は、さまざまなアノテーションタスクに対するLLMの使用可能性を探り始めた。
最近になって、こうした注目の多くは、自然に主観的なタスクに移行しました。
最新の世代のLLMが、異なるヒトのサブポピュレーションや個人に関する広範な知識を消化し、コード化していることを考えれば、これらのモデルが、幅広い異なる人間の視点に合わせて訓練、調整、あるいは誘導されることを期待している。
研究者はすでに調査やテストを通じてこのアライメントの成功を評価しているが、NLPでしばしば重要となるもの、実際の下流タスクのアライメントを評価するためのリソースが不足している。
このギャップを埋めるために,アノテーションタスクの主観性に関連するトピックに取り組む研究者に,適切なデータセットを収集,組み合わせ,使用するための便利な方法を提供する,PythonライブラリのSubDataを紹介します。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation [9.497148303350697]
本稿では,LCMに基づくデータアノテーションの適用を拡大し,既存のデータセットの品質を向上させるケーススタディを提案する。
具体的には、連鎖や多数決のようなアプローチを利用して、人間のアノテーションを模倣し、Multi-Newsデータセットから無関係な文書を分類する。
論文 参考訳(メタデータ) (2024-04-15T11:36:10Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。
この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。
オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文 参考訳(メタデータ) (2024-01-15T19:46:40Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - LLM-in-the-loop: Leveraging Large Language Model for Thematic Analysis [18.775126929754833]
Thematic Analysis (TA)は、多くの分野や分野における定性的データを解析するために広く使われている。
ヒューマンコーダはデータの解釈とコーディングを複数のイテレーションで開発し、より深くする。
In-context Learning (ICL) を用いたTAを実現するための人間-LLM協調フレームワーク(LLM-in-the-loop)を提案する。
論文 参考訳(メタデータ) (2023-10-23T17:05:59Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。