論文の概要: LLMs can construct powerful representations and streamline sample-efficient supervised learning
- arxiv url: http://arxiv.org/abs/2603.11679v1
- Date: Thu, 12 Mar 2026 08:44:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.970886
- Title: LLMs can construct powerful representations and streamline sample-efficient supervised learning
- Title(参考訳): LLMは強力な表現を構築でき、サンプル効率の高い教師あり学習を効率化できる
- Authors: Ilker Demirel, Larry Shi, Zeshan Hussain, David Sontag,
- Abstract要約: 本稿では,下流タスクのためのマルチモーダルデータモデリングプロセスの合理化を目的としたエージェントパイプラインを提案する。
提案手法は, 従来の数理モデル, ナイーブテキストシリアライゼーションベースライン, 臨床基礎モデルを大きく上回っている。
- 参考スコア(独自算出の注目度): 3.5741706722720377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As real-world datasets become increasingly complex and heterogeneous, supervised learning is often bottlenecked by input representation design. Modeling multimodal data for downstream tasks, such as time-series, free text, and structured records, often requires non-trivial domain-specific engineering. We propose an agentic pipeline to streamline this process. First, an LLM analyzes a small but diverse subset of text-serialized input examples in-context to synthesize a global rubric, which acts as a programmatic specification for extracting and organizing evidence. This rubric is then used to transform naive text-serializations of inputs into a more standardized format for downstream models. We also describe local rubrics, which are task-conditioned summaries generated by an LLM. Across 15 clinical tasks from the EHRSHOT benchmark, our rubric-based approaches significantly outperform traditional count-feature models, naive text-serialization-based LLM baselines, and a clinical foundation model, which is pretrained on orders of magnitude more data. Beyond performance, rubrics offer several advantages for operational healthcare settings such as being easy to audit, cost-effectiveness to deploy at scale, and they can be converted to tabular representations that unlock a swath of machine learning techniques.
- Abstract(参考訳): 現実世界のデータセットが複雑で異質になるにつれて、教師付き学習は入力表現設計によってボトルネックとなることが多い。
時系列、自由テキスト、構造化レコードなどの下流タスクのためのマルチモーダルデータのモデリングは、しばしば非自明なドメイン固有のエンジニアリングを必要とする。
このプロセスを合理化するためのエージェントパイプラインを提案する。
まず、LLMはテキストシリアライズされた入力例の小さなサブセットを分析し、証拠の抽出と整理のためのプログラム仕様として機能するグローバルルーリックを合成する。
このルーリックは、入力の単純テキストシリアライズを下流モデルのためのより標準化されたフォーマットに変換するのに使用される。
また,LLMによって生成されたタスク条件付き要約である局所ルーリックについても述べる。
EHRSHOTベンチマークから得られた15の臨床的タスクのうち、我々のルーブリックベースのアプローチは、従来の数式モデル、単純テキストシリアライズベースのLCMベースライン、そして、桁違いのデータに基づいて事前訓練された臨床基礎モデルよりもはるかに優れている。
パフォーマンス以外にも、ルーブリックは、監査が容易で、大規模にデプロイするコスト効率が高く、さまざまな機械学習テクニックをアンロックする表象に変換できるなど、運用中の医療設定にいくつかの利点を提供している。
関連論文リスト
- Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - Enhancing Transformer-Based Rerankers with Synthetic Data and LLM-Based Supervision [0.13999481573773073]
大きな言語モデル(LLM)は、その深いセマンティック理解と推論のために、再分類時に優れている。
微調整の小さなタスク固有のモデルは、より効率的な代替手段だが、通常は手動でラベル付けされたデータに頼っている。
本稿では,人間ラベルのクエリドキュメントペアの必要性を解消する新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-09-23T09:47:27Z) - LLM-as-classifier: Semi-Supervised, Iterative Framework for Hierarchical Text Classification using Large Language Models [0.0]
大規模言語モデル(LLM)は、構造化されていないテキストデータを解析する前例のない機能を提供している。
標準的な微調整アプローチはリソース集約的であり、実世界のデータ分散の動的な性質にしばしば苦労する。
論文 参考訳(メタデータ) (2025-08-22T15:47:17Z) - Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - Large Language Models are Good Relational Learners [55.40941576497973]
本稿では,グラフニューラルネットワーク(GNN)に基づくエンコーダを用いて,大規模言語モデル(LLM)のための構造化リレーショナルプロンプトを生成する新しいアーキテクチャであるRel-LLMを紹介する。
従来のテキストベースのシリアライズ手法とは異なり,本手法はデータベース固有の関係構造を保ちながら,LLMが複雑なエンティティ関係を処理・推論することを可能にする。
論文 参考訳(メタデータ) (2025-06-06T04:07:55Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Large Language Models Can Automatically Engineer Features for Few-Shot Tabular Learning [35.03338699349037]
本稿では,機能エンジニアとして大規模言語モデルを用いる新しい文脈内学習フレームワークFeatLLMを提案する。
FeatLLMは高品質なルールを生成し、TabLLMやSTUNTなどよりも大幅に(平均で10%)優れている。
論文 参考訳(メタデータ) (2024-04-15T06:26:08Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。