Fugu-MT 論文翻訳(概要): LML: Language Model Learning a Dataset for Data-Augmented Prediction

論文の概要: LML: Language Model Learning a Dataset for Data-Augmented Prediction

arxiv url: http://arxiv.org/abs/2409.18957v1
Date: Fri, 27 Sep 2024 17:58:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-01 07:41:44.847706
Title: LML: Language Model Learning a Dataset for Data-Augmented Prediction
Title（参考訳）: LML: データ拡張予測のためのデータセットを学習する言語モデル
Authors: Praneeth Vadlapati,
Abstract要約: 本稿では,データ拡張予測(Data-Augmented Prediction, DAP)と呼ばれる新しい手法を応用したLanguage Model Learning(LML)という新しい概念を提案する。この分類は、人間が手動でデータの探索と理解を行うのと同様の手法を用いて、LLMによって行われる。いくつかのテストケースでは、システムは90%以上の精度を記録し、システムの有効性を証明した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces a new approach to using Large Language Models (LLMs) for classification tasks, which are typically handled using Machine Learning (ML) models. Unlike ML models that rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a new concept called "Language Model Learning (LML)" powered by a new method called "Data-Augmented Prediction (DAP)". The classification is performed by LLMs using a method similar to humans manually exploring and understanding the data and deciding classifications using data as a reference. Training data is summarized and evaluated to determine the features that lead to the classification of each label the most. In the process of DAP, the system uses the data summary to automatically create a query, which is used to retrieve relevant rows from the dataset. A classification is generated by the LLM using data summary and relevant rows, ensuring satisfactory accuracy even with complex data. Usage of data summary and similar data in DAP ensures context-aware decision-making. The proposed method uses the words "Act as an Explainable Machine Learning Model" in the prompt to enhance the interpretability of the predictions by allowing users to review the logic behind each prediction. In some test cases, the system scored an accuracy above 90%, proving the effectiveness of the system and its potential to outperform conventional ML models in various scenarios. The code is available at https://github.com/Pro-GenAI/LML-DAP
Abstract（参考訳）: 本稿では,機械学習(ML)モデルを用いて処理される大規模言語モデル(LLM)を分類タスクに利用するための新しいアプローチを提案する。データクリーニングと機能エンジニアリングに大きく依存するMLモデルとは異なり、この方法はLLMを使用してプロセスを合理化する。本稿では,データ拡張予測 (Data-Augmented Prediction, DAP) と呼ばれる新しい手法を用いて,Language Model Learning (LML) と呼ばれる新しい概念を提案する。この分類は、人間が手動でデータを調べ、理解し、参照としてデータを用いて分類を決定する手法を用いて、LLMによって行われる。トレーニングデータを要約して評価し、各ラベルの分類に最も寄与する特徴を決定する。 DAPのプロセスでは、データセットから関連する行を取得するために使用されるクエリを自動的に生成するために、データサマリを使用する。分類は、データ要約と関連する行を用いてLLMによって生成され、複雑なデータであっても良好な精度が確保される。 DAPにおけるデータ要約と類似データの使用により、コンテキスト対応の意思決定が保証される。提案手法は,予測の解釈可能性を高めるために,ユーザが各予測の背後にあるロジックをレビューできるようにすることで,「説明可能な機械学習モデルとしてのAct」という単語を使用する。いくつかのテストケースでは、システムは90%以上の精度を記録し、システムの有効性と、様々なシナリオにおいて従来のMLモデルを上回る性能を証明した。コードはhttps://github.com/Pro-GenAI/LML-DAPで公開されている。

関連論文リスト

MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。 VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models [40.94659575657584]
本稿ではANLS*と呼ばれる生成モデルを評価するための新しい指標を提案する。 ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
論文参考訳（メタデータ） (2024-02-06T09:50:08Z)
LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。 LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文参考訳（メタデータ） (2023-10-30T14:54:15Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Interpret-able feedback for AutoML systems [5.5524559605452595]
自動機械学習(AutoML)システムは、非ML専門家のための機械学習(ML)モデルのトレーニングを可能にすることを目的としている。これらのシステムの欠点は、高い精度でモデルの生成に失敗した場合、モデルを改善するためのパスがないことである。 AutoML用の解釈可能なデータフィードバックソリューションを紹介します。
論文参考訳（メタデータ） (2021-02-22T18:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。