論文の概要: Columbo: Expanding Abbreviated Column Names for Tabular Data Using Large Language Models
- arxiv url: http://arxiv.org/abs/2508.09403v2
- Date: Thu, 14 Aug 2025 01:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 11:31:31.740412
- Title: Columbo: Expanding Abbreviated Column Names for Tabular Data Using Large Language Models
- Title(参考訳): Columbo: 大規模言語モデルを用いた語彙データのための省略されたカラム名の拡張
- Authors: Ting Cai, Stephen Sheen, AnHai Doan,
- Abstract要約: 我々は芸術の状態を著しく向上させる3つの貢献をしている。
まず、先行研究で使用される合成公開データは、大きな制約があることを示す。
第2に、先行作業で用いられる精度測定が、正確な拡張を真剣に考慮していることを示す。
- 参考スコア(独自算出の注目度): 2.380234786707561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expanding the abbreviated column names of tables, such as "esal" to "employee salary", is critical for numerous downstream data tasks. This problem arises in enterprises, domain sciences, government agencies, and more. In this paper we make three contributions that significantly advances the state of the art. First, we show that synthetic public data used by prior work has major limitations, and we introduce 4 new datasets in enterprise/science domains, with real-world abbreviations. Second, we show that accuracy measures used by prior work seriously undercount correct expansions, and we propose new synonym-aware measures that capture accuracy much more accurately. Finally, we develop Columbo, a powerful LLM-based solution that exploits context, rules, chain-of-thought reasoning, and token-level analysis. Extensive experiments show that Columbo significantly outperforms NameGuess, the current most advanced solution, by 4-29%, over 5 datasets. Columbo has been used in production on EDI, a major data portal for environmental sciences.
- Abstract(参考訳): 表の短縮カラム名、例えば "esal" から "employee salary" を拡張することは、多くのダウンストリームデータタスクにとって重要である。
この問題は企業、ドメインサイエンス、政府機関などで発生します。
本稿では,最先端技術に大きく貢献する3つの貢献を行う。
まず、先行研究で使用される合成公開データには、大きな制限があることを示し、実世界の略語を用いて、企業/科学領域に4つの新しいデータセットを導入する。
第2に,従来の作業で用いた精度測定が,精度をより正確に把握する新しい同義語対応尺度を提案する。
最後に、コンテキスト、ルール、チェーンオブ思考推論、トークンレベルの分析を利用する強力なLCMベースのソリューションであるColumboを開発する。
大規模な実験によると、Columboは現在の最も高度なソリューションであるNameGuessを5つのデータセットで4~29%上回っている。
コロンボは環境科学の主要なデータポータルであるEDIで生産されている。
関連論文リスト
- Column Vocabulary Association (CVA): semantic interpretation of dataless tables [0.6466206145151129]
カラム語彙協会(英語: Column Vocabulary Association, CVA)は、メタデータ情報のみに基づく列ヘッダのセマンティックアノテーションのタスクを指す。
我々は,大規模言語モデル (LLM) や検索拡張生成 (RAG) など,CVAタスクの実行における各種手法の性能を評価する。
論文 参考訳(メタデータ) (2024-09-06T14:58:30Z) - Unearthing Large Scale Domain-Specific Knowledge from Public Corpora [103.0865116794534]
データ収集パイプラインに大規模なモデルを導入し、ドメイン固有の情報の生成をガイドします。
このアプローチをRetrieve-from-CCと呼ぶ。
ドメイン固有の知識に関するデータを収集するだけでなく、パブリックコーパスから潜在的推論手順を含むデータをマイニングする。
論文 参考訳(メタデータ) (2024-01-26T03:38:23Z) - NameGuess: Column Name Expansion for Tabular Data [28.557115822407294]
我々は列名を自然言語生成問題として拡張するための新しいタスクであるNameGuessを紹介した。
384K短縮カラムペアのトレーニングデータセットを作成します。
表の内容や列のヘッダー名を条件にすることで、自動回帰言語モデルを強化する。
論文 参考訳(メタデータ) (2023-10-19T23:11:37Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Text Classification in the Wild: a Large-scale Long-tailed Name
Normalization Dataset [32.41466058437854]
まず、大規模機関名正規化データセットLoT-insts1を収集する。
大規模なマルチショットクラスから、少数ショットとゼロショットの学習シナリオを分離する。
本稿では,小ショットおよびゼロショットテストセット上での分布外一般化を改良したBERTモデルを提案する。
論文 参考訳(メタデータ) (2023-02-19T08:44:21Z) - Named Entity Normalization Model Using Edge Weight Updating Neural
Network: Assimilation Between Knowledge-Driven Graph and Data-Driven Graph [7.873525968415584]
We build the named entity normalization model with a novel Edge Weight Updating Neural Network。
提案したモデルでは,4つの異なるデータセットでテストした結果が得られた。
論文 参考訳(メタデータ) (2021-06-14T16:14:58Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z) - What Does This Acronym Mean? Introducing a New Dataset for Acronym
Identification and Disambiguation [74.42107665213909]
頭字語は、文書中の長い文を伝達し、文章の主文の1つとして機能する短い形式の句である。
その重要性から、頭字語と対応する語句(AI)を識別し、それぞれの頭字語(AD)の正しい意味を見つけることは、テキスト理解に不可欠である。
このタスクの最近の進歩にもかかわらず、既存のデータセットにはいくつかの制限があり、さらなる改善を妨げる。
論文 参考訳(メタデータ) (2020-10-28T00:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。