Fugu-MT 論文翻訳(概要): LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

論文の概要: LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation

arxiv url: http://arxiv.org/abs/2602.08793v1
Date: Mon, 09 Feb 2026 15:30:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:25.325236
Title: LakeHopper: Cross Data Lakes Column Type Annotation through Model Adaptation
Title（参考訳）: LakeHopper: モデル適応によるカラム型アノテーション
Authors: Yushi Sun, Xujia Li, Nan Tang, Quanqing Xu, Chuanhui Yang, Lei Chen,
Abstract要約: カラム型アノテーションは、データのクリーニング、統合、可視化といったタスクに不可欠である。最近のソリューションは、特定のテーブルの集合からよく注釈付けされた列に微調整されたリソース集約型言語モデルに依存している。我々は,LMインタラクションを通じて知識ギャップを特定し,解決するフレームワークであるLakeHopperを提案する。
参考スコア（独自算出の注目度）: 18.72484471043965
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Column type annotation is vital for tasks like data cleaning, integration, and visualization. Recent solutions rely on resource-intensive language models fine-tuned on well-annotated columns from a particular set of tables, i.e., a source data lake. In this paper, we study whether we can adapt an existing pre-trained LM-based model to a new (i.e., target) data lake to minimize the annotations required on the new data lake. However, challenges include the source-target knowledge gap, selecting informative target data, and fine-tuning without losing shared knowledge exist. We propose LakeHopper, a framework that identifies and resolves the knowledge gap through LM interactions, employs a cluster-based data selection scheme for unannotated columns, and uses an incremental fine-tuning mechanism that gradually adapts the source model to the target data lake. Our experimental results validate the effectiveness of LakeHopper on two different data lake transfers under both low-resource and high-resource settings.
Abstract（参考訳）: カラム型アノテーションは、データのクリーニング、統合、可視化といったタスクに不可欠である。近年のソリューションは、リソース集約型言語モデルに依存しており、特定のテーブルのセット、すなわちソースデータレイクからよく注釈付けされた列に微調整されている。本稿では,既存のトレーニング済みLMベースモデルを新しい(すなわちターゲット)データレイクに適用して,新しいデータレイクに必要なアノテーションを最小化できるかどうかを検討する。しかし、課題には、ソース・ターゲットの知識ギャップ、情報的対象データの選択、共有知識を失うことなく微調整などが含まれる。我々は、LMインタラクションを通じて知識ギャップを特定し、解決するフレームワークであるLakeHopperを提案し、無注釈カラムに対してクラスタベースのデータ選択方式を採用し、徐々にターゲットデータレイクにソースモデルを適応させるインクリメンタルな微調整機構を使用している。実験により,低リソースと高リソースの両方の環境下での2つの異なるデータレイク転送に対するLakeHopperの有効性が検証された。

関連論文リスト

LakeMLB: Data Lake Machine Learning Benchmark [15.634664259138157]
データレイクにおける最も一般的なマルチソース・マルチテーブルシナリオ向けに設計されたLakeMLB(Data Lake Machine Learning Benchmark)を提案する。 LakeMLBは、UnionとJoinという2つの代表的なマルチテーブルシナリオに焦点を当てており、政府のオープンデータ、ファイナンス、Wikipedia、オンラインマーケットプレイスを含む、各シナリオの3つの実世界のデータセットを提供している。
論文参考訳（メタデータ） (2026-02-11T02:33:29Z)
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding [61.15402517835137]
教師付き微調整(SFT)データセットを構築し、様々なサイズのモデルで最先端のコーディング能力を実現する。私たちのモデルは、LiveCodeBenchで61.8%、CodeContestsで24.6%を達成するためにSFTのみを使用しており、強化学習でトレーニングされた代替品を上回っています。
論文参考訳（メタデータ） (2025-04-02T17:50:31Z)
Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文参考訳（メタデータ） (2024-10-14T15:48:09Z)
LLM-assisted Labeling Function Generation for Semantic Type Detection [5.938962712331031]
ラベル付け機能を利用した意味型検出のためのトレーニングデータのアノテートを支援するために弱い監視手法を提案する。このプロセスの課題の1つは、データレイクテーブルデータセットの大量かつ低品質のため、ラベル付け関数を手作業で記述することの難しさである。
論文参考訳（メタデータ） (2024-08-28T23:39:50Z)
Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文参考訳（メタデータ） (2024-06-16T16:15:20Z)
Dated Data: Tracing Knowledge Cutoffs in Large Language Models [47.987664966633865]
LLMの資源レベルの時間的アライメントに有効なカットオフを推定するための簡単な手法を提案する。効果的なカットオフは、報告されたカットオフとしばしば異なります。提案手法は,(1)非自明なデータ量によるCommonCrawlデータの時間的偏りと,(2)意味的重複と語彙的近接重複を含むLLM重複の重複という2つの原因を明らかにした。
論文参考訳（メタデータ） (2024-03-19T17:57:58Z)
Retrieve, Merge, Predict: Augmenting Tables with Data Lakes [7.449868392714658]
本稿では,機械学習タスクの自動テーブル拡張について,詳細な分析を行う。結合可能なテーブルを検索し、情報をマージし、結果のテーブルと予測する。私たちは2つのデータレイクを使用します。Open Data US、よく参照された実データレイク、新しい半合成データセットYADL(Yet Another Data Lake)です。
論文参考訳（メタデータ） (2024-02-09T09:48:38Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Deep Lake: a Lakehouse for Deep Learning [0.0]
Deep Lakeは、Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスである。本稿では,Activeloopで開発されたディープラーニングアプリケーションのためのオープンソースのレイクハウスであるDeep Lakeについて述べる。
論文参考訳（メタデータ） (2022-09-22T05:04:09Z)
Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文参考訳（メタデータ） (2020-02-20T03:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。