Fugu-MT 論文翻訳(概要): LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction

論文の概要: LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction

arxiv url: http://arxiv.org/abs/2409.18957v3
Date: Sun, 10 Nov 2024 03:45:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.128152
Title: LML-DAP: Language Model Learning a Dataset for Data-Augmented Prediction
Title（参考訳）: LML-DAP:データ拡張予測のためのデータセットを学習する言語モデル
Authors: Praneeth Vadlapati,
Abstract要約: 本稿では,Large Language Models (LLMs) を用いた説明可能な手法によるタスク分類手法を提案する。分類は、データを手動で探索し、理解して分類を決定する人間に類似した手法を用いて、LLMによって行われる。システムはいくつかのテストケースで90%以上の精度を記録し、さまざまなシナリオで機械学習モデルを上回る性能と可能性を確認した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Classification tasks are typically handled using Machine Learning (ML) models, which lack a balance between accuracy and interpretability. This paper introduces a new approach for classification tasks using Large Language Models (LLMs) in an explainable method. Unlike ML models, which rely heavily on data cleaning and feature engineering, this method streamlines the process using LLMs. This paper proposes a method called "Language Model Learning (LML)" powered by a new method called "Data-Augmented Prediction (DAP)." The classification is performed by LLMs using a method similar to that used by humans who manually explore and understand the data to decide classifications. In the process of LML, a dataset is summarized and evaluated to determine the features leading to each label the most. In the DAP process, the system uses the data summary and a row of the testing dataset to automatically generate a query to retrieve relevant rows from the dataset for context-aware classification. LML and DAP unlock new possibilities in areas that require explainable and context-aware decisions by ensuring satisfactory accuracy even with complex data. The system scored an accuracy above 90% in some test cases, confirming the effectiveness and potential of the system to outperform ML models in various scenarios. The source code is available at https://github.com/Pro-GenAI/LML-DAP
Abstract（参考訳）: 分類タスクは一般的に機械学習(ML)モデルで処理されるが、精度と解釈可能性のバランスが欠如している。本稿では,Large Language Models (LLMs) を用いた説明可能な手法によるタスク分類手法を提案する。データクリーニングと機能エンジニアリングに大きく依存するMLモデルとは異なり、この方法はLLMを使用してプロセスを合理化する。本稿では,データ拡張予測 (Data-Augmented Prediction, DAP) と呼ばれる新しい手法を用いて,Language Model Learning (LML) と呼ばれる手法を提案する。分類は、データを手動で探索し、理解して分類を決定する人間に類似した手法を用いて、LLMによって行われる。 LMLのプロセスでは、データセットを要約して評価し、各ラベルに最も近い特徴を決定する。 DAPプロセスでは、テストデータセットのデータサマリーと行を使用して、コンテキスト認識の分類のためにデータセットから関連する行を検索するクエリを自動的に生成する。 LMLとDAPは、複雑なデータであっても十分な精度を確保することで、説明可能な、コンテキスト対応の判断を必要とする領域において、新たな可能性を開く。このシステムは、いくつかのテストケースで90%以上の精度を記録し、さまざまなシナリオでMLモデルを上回る性能と可能性を確認した。ソースコードはhttps://github.com/Pro-GenAI/LML-DAPで入手できる。

関連論文リスト

MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文参考訳（メタデータ） (2025-03-26T12:42:37Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Verbalized Machine Learning: Revisiting Machine Learning with Language Models [63.10391314749408]
言語化機械学習(VML)の枠組みを紹介する。 VMLはパラメータ空間を人間の解釈可能な自然言語に制限する。我々は,VMLの有効性を実証的に検証し,VMLがより強力な解釈可能性を実現するためのステップストーンとして機能することを期待する。
論文参考訳（メタデータ） (2024-06-06T17:59:56Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
ANLS* -- A Universal Document Processing Metric for Generative Large Language Models [40.94659575657584]
本稿ではANLS*と呼ばれる生成モデルを評価するための新しい指標を提案する。 ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。
論文参考訳（メタデータ） (2024-02-06T09:50:08Z)
LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。 LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文参考訳（メタデータ） (2023-10-30T14:54:15Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文参考訳（メタデータ） (2023-08-23T09:45:29Z)
Interpret-able feedback for AutoML systems [5.5524559605452595]
自動機械学習(AutoML)システムは、非ML専門家のための機械学習(ML)モデルのトレーニングを可能にすることを目的としている。これらのシステムの欠点は、高い精度でモデルの生成に失敗した場合、モデルを改善するためのパスがないことである。 AutoML用の解釈可能なデータフィードバックソリューションを紹介します。
論文参考訳（メタデータ） (2021-02-22T18:54:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。