論文の概要: Text Serialization and Their Relationship with the Conventional Paradigms of Tabular Machine Learning
- arxiv url: http://arxiv.org/abs/2406.13846v1
- Date: Wed, 19 Jun 2024 21:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 18:15:51.691201
- Title: Text Serialization and Their Relationship with the Conventional Paradigms of Tabular Machine Learning
- Title(参考訳): テキストシリアライズとタブラル機械学習の従来のパラダイムとの関係
- Authors: Kyoka Ono, Simon A. Lee,
- Abstract要約: 本研究では,機械学習タスクにおける特徴表現と予測に言語モデル(LM)をどのように使用できるかを検討する。
本研究は,新しいLM技術が表型機械学習の伝統的なパラダイムとどのように比較されるかを評価する。
以上の結果から,現在の事前学習モデルは従来の手法に取って代わるべきではないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has explored how Language Models (LMs) can be used for feature representation and prediction in tabular machine learning tasks. This involves employing text serialization and supervised fine-tuning (SFT) techniques. Despite the simplicity of these techniques, significant gaps remain in our understanding of the applicability and reliability of LMs in this context. Our study assesses how emerging LM technologies compare with traditional paradigms in tabular machine learning and evaluates the feasibility of adopting similar approaches with these advanced technologies. At the data level, we investigate various methods of data representation and curation of serialized tabular data, exploring their impact on prediction performance. At the classification level, we examine whether text serialization combined with LMs enhances performance on tabular datasets (e.g. class imbalance, distribution shift, biases, and high dimensionality), and assess whether this method represents a state-of-the-art (SOTA) approach for addressing tabular machine learning challenges. Our findings reveal current pre-trained models should not replace conventional approaches.
- Abstract(参考訳): 近年,言語モデル(LM)が表型機械学習タスクの特徴表現や予測にどのように使用できるかが研究されている。
これは、テキストシリアライゼーションと教師付き微調整(SFT)技術を使用する。
これらの手法の単純さにもかかわらず、この文脈におけるLMの適用性と信頼性の理解には大きなギャップが残っている。
本研究は,新しいLM技術が表型機械学習の伝統的なパラダイムとどのように比較されているかを評価し,これらの先進技術と類似したアプローチを採用する可能性を評価する。
データレベルでは、直列化された表データの表現とキュレーションの様々な方法について検討し、予測性能への影響について検討する。
分類レベルでは、LMと組み合わせたテキストシリアライゼーションは、表型データセット(例えば、クラス不均衡、分布シフト、バイアス、高次元性)の性能を高め、この手法が表型機械学習課題に対処するための最先端(SOTA)アプローチであるかどうかを評価する。
以上の結果から,現在の事前学習モデルは従来の手法に取って代わるべきではないことがわかった。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Scalable Multi-phase Word Embedding Using Conjunctive Propositional Clauses [14.088007380798635]
入力シーケンスの文脈埋め込みを発見するために,2相学習を取り入れた新しい手法を提案する。
この技術はスケーラブルなモデルの設計を促進するだけでなく、解釈可能性も維持する。
実験の結果,提案手法は従来の手法と比較して競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2025-01-31T10:39:04Z) - READ: Reinforcement-based Adversarial Learning for Text Classification with Limited Labeled Data [7.152603583363887]
BERTのような事前訓練されたトランスフォーマーモデルは、多くのテキスト分類タスクで大幅に向上している。
本稿では,強化学習に基づくテキスト生成と半教師付き対角学習アプローチをカプセル化する手法を提案する。
提案手法であるREADは、ラベルのないデータセットを用いて、強化学習を通じて多様な合成テキストを生成する。
論文 参考訳(メタデータ) (2025-01-14T11:39:55Z) - Towards More Effective Table-to-Text Generation: Assessing In-Context Learning and Self-Evaluation with Open-Source Models [0.0]
本研究では,ベンチマークデータセット間の言語モデル(LM)における様々なコンテキスト内学習戦略の有効性について検討する。
我々は、チェーンオブ思考推論を用いた大規模言語モデル(LLM)の自己評価アプローチを採用し、BERTScoreのような人力対応メトリクスとの相関性を評価する。
本研究はテーブル・ツー・テキスト・ジェネレーションの改善における実例の顕著な影響を浮き彫りにし, LLM の自己評価には可能性があるが, 人間の判断と現在の整合性は向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-15T09:19:42Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - From Text to Treatment Effects: A Meta-Learning Approach to Handling Text-Based Confounding [7.5348062792]
本稿では,共起変数をテキストで表現する場合のメタラーナーの性能について検討する。
共同創設者の事前学習したテキスト表現を用いた学習者は,CATE推定精度の向上を図っている。
テキスト埋め込みの絡み合った性質のため、これらのモデルは、完全な共同創設者の知識を持つメタ学習者のパフォーマンスと完全には一致しない。
論文 参考訳(メタデータ) (2024-09-23T19:46:19Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.282770819829913]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - On Learning Text Style Transfer with Direct Rewards [101.97136885111037]
平行コーパスの欠如により、テキストスタイルの転送タスクの教師付きモデルを直接訓練することは不可能である。
我々は、当初、微調整されたニューラルマシン翻訳モデルに使用されていた意味的類似度指標を活用している。
我々のモデルは、強いベースラインに対する自動評価と人的評価の両方において大きな利益をもたらす。
論文 参考訳(メタデータ) (2020-10-24T04:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。