論文の概要: Active Learning with Tabular Language Models
- arxiv url: http://arxiv.org/abs/2211.04128v1
- Date: Tue, 8 Nov 2022 09:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 16:11:18.354628
- Title: Active Learning with Tabular Language Models
- Title(参考訳): 語彙モデルを用いたアクティブラーニング
- Authors: Martin Ringsquandl, Aneta Koleva
- Abstract要約: 業界では、スプレッドシートには多くの表があるが、かなりの量のラベルの取得は高価である。
多様性を組み込んだセルレベルの取得関数がラベル付けの労力を大幅に削減できることを示す。
また、計算効率と人間のアノテータの視点に関して、オープンな根本的な疑問も見受けられる。
- 参考スコア(独自算出の注目度): 7.756211500979314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements in tabular language model research, real-world
applications are still challenging. In industry, there is an abundance of
tables found in spreadsheets, but acquisition of substantial amounts of labels
is expensive, since only experts can annotate the often highly technical and
domain-specific tables. Active learning could potentially reduce labeling
costs, however, so far there are no works related to active learning in
conjunction with tabular language models. In this paper we investigate
different acquisition functions in a real-world industrial tabular language
model use case for sub-cell named entity recognition. Our results show that
cell-level acquisition functions with built-in diversity can significantly
reduce the labeling effort, while enforced table diversity is detrimental. We
further see open fundamental questions concerning computational efficiency and
the perspective of human annotators.
- Abstract(参考訳): 最近の表型言語モデル研究の進歩にもかかわらず、現実世界のアプリケーションはまだ難しい。
業界では、スプレッドシートには多くの表があるが、かなりの量のラベルの取得は高価であり、専門家だけが高い技術とドメイン固有の表に注釈を付けることができる。
アクティブラーニングはラベリングコストを削減できるが、今のところ、表型言語モデルと連動してアクティブラーニングに関する作業はない。
本稿では,サブセル名認識のための実世界の産業用表言語モデルユースケースにおける異なる獲得機能について検討する。
以上の結果から,組込みの多様性を持つセルレベル獲得関数はラベル付けの労力を大幅に削減できるが,強制テーブルの多様性は有害であることがわかった。
計算効率と人間の注釈者の視点に関するオープン基礎的な疑問がさらに見受けられる。
関連論文リスト
- Scalable Representation Learning for Multimodal Tabular Transactions [14.18267117657451]
これらの課題に対して、革新的でスケーラブルなソリューションを提示します。
トランザクションとテキストのモダリティをインターリーブするパラメータ効率の良いデコーダを提案する。
我々は,大規模な合成決済トランザクションデータセット上でのソリューションの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-10T12:18:42Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - Embeddings for Tabular Data: A Survey [8.010589283146222]
タブラルデータは、同じ列(属性)のセットを持つ行(サンプル)を含む
テーブルは、さまざまな産業や学界でデータを保存する自然な方法になりつつある。
新しい研究の行は、様々なデータベースタスクをサポートするために様々な学習技術を適用している。
論文 参考訳(メタデータ) (2023-02-23T04:37:49Z) - Towards Best Practices for Training Multilingual Dense Retrieval Models [54.91016739123398]
我々は,このような設計を用いて,多種多様言語における単言語検索の課題に焦点をあてる。
本研究は多言語高密度検索モデルのトレーニングのための「ベストプラクティス」ガイドとして組織されている。
論文 参考訳(メタデータ) (2022-04-05T17:12:53Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。