論文の概要: Segment-driven Structural Induction and Semantic Alignment for Heterogeneous Tabular Representation
- arxiv url: http://arxiv.org/abs/2606.01890v1
- Date: Mon, 01 Jun 2026 08:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.615956
- Title: Segment-driven Structural Induction and Semantic Alignment for Heterogeneous Tabular Representation
- Title(参考訳): 不均一な単語表現のためのセグメント駆動型構造誘導と意味的アライメント
- Authors: Woojun Jung, Susik Yoon,
- Abstract要約: NAVIはセグメント中心の事前トレーニングフレームワークであり、各ヘッダ値ペアをスキーマレベルの構造的エビデンスと列レベルの分布的エビデンスを集約する単位として扱う。
Masked Segment ModelingとEntropy-driven Segment Alignmentは、構造化ヘッダ値の結合と、安定した属性とインスタンス固有の属性間のセマンティックアライメントを共同で実施する。
- 参考スコア(独自算出の注目度): 11.279399724798383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world domains often contain heterogeneous tables whose headers vary while their underlying attribute semantics are shared, making it difficult to induce domain-specialized semantics from table-local evidence alone. Existing encoders model parts of this problem, but often underuse column-level value distributions and apply uniform objectives across attributes with different semantic roles. We propose NAVI, a segment-centric pretraining framework that treats each header-value pair as the unit for aggregating schema-level structural evidence and column-level distributional evidence. We realize this design through Masked Segment Modeling and Entropy-driven Segment Alignment, which jointly enforce structured header-value coupling and semantic alignment across stable and instance-specific attributes. Experiments on heterogeneous in-domain tables show improved reconstruction, semantic consistency, and downstream utility across evaluation settings overall.
- Abstract(参考訳): 実世界のドメインは、ヘッダが異なるヘテロジニアステーブルを含むことが多く、その基盤となる属性のセマンティクスが共有されているため、テーブルローカルなエビデンスのみからドメイン特化セマンティクスを誘導することは困難である。
既存のエンコーダはこの問題の一部をモデル化するが、しばしば列レベルの値分布を過小評価し、異なるセマンティックな役割を持つ属性に一様の目的を適用する。
本稿では,各ヘッダ値ペアを,スキーマレベルの構造的エビデンスと列レベルの分布的エビデンスを集約する単位として扱う,セグメント中心の事前学習フレームワークNAVIを提案する。
この設計は、安定な属性とインスタンス固有の属性をまたいだ構造化ヘッダ値結合とセマンティックアライメントを共同で実施するMasked Segment ModelingとEntropy-driven Segment Alignmentを通じて実現している。
ヘテロジニアスなドメイン内テーブルの実験では、全体の評価設定における再構築、セマンティック一貫性、ダウンストリームユーティリティが改善された。
関連論文リスト
- SemStruct: Contextualizing Semantic Embeddings with Structural Information for Schema Matching [20.959946127503354]
グラフニューラルネットワーク(GNN)の構造帰納バイアスと冷凍PLMのセマンティックパワーを結合するフレームワークであるSemStructを提案する。
テーブルを、列と値が列で連結されたノードである異種グラフとしてモデル化し、GNNが構造全体にわたってあいまいなコンテキストを伝播できるようにする。
論文 参考訳(メタデータ) (2026-05-29T01:45:45Z) - Decomposed Vision-Language Alignment for Fine-Grained Open-Vocabulary Segmentation [16.594496639787195]
開語彙セグメンテーションモデルは、しばしばカテゴリオブジェクトと属性の目に見えない組み合わせに一般化するのに苦労する。
本稿では、テキストプロンプトを概念トークンと複数の属性トークンに分解する分解視覚言語アライメントフレームワークを提案する。
機能レベルでは,属性固有のゲーティングマップを生成し,情報を乗法的に融合する機能拡張型クロスアテンションモジュールを導入する。
論文 参考訳(メタデータ) (2026-05-15T13:27:01Z) - SAM-NER: Semantic Archetype Mediation for Zero-Shot Named Entity Recognition [50.82878172248818]
emphSemantic Archetype Mediationは中間的、領域不変なアーキタイプ空間を介してクロスドメイン転送を安定化する。
SAM-NERは、クロスドメイン設定でZS-NERベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-05-05T12:54:17Z) - Weight-Informed Self-Explaining Clustering for Mixed-Type Tabular Data [63.62853416081748]
WISEは表現、特徴重み付け、クラスタリング、解釈を統一するフレームワークである。
クラスタリングを駆動する同じプリミティブに根ざした、忠実で人間解釈可能な説明を生成する。
論文 参考訳(メタデータ) (2026-04-07T13:18:31Z) - Orthogonal Hierarchical Decomposition for Structure-Aware Table Understanding with Large Language Models [13.58784346599112]
LLMの複雑なテーブルの構造保存型入力表現を構成する直交階層分解(OHD)フレームワークを提案する。
この表現に基づいて、各セルのセマンティックな系統を対称的に再構築する2経路アソシエーションプロトコルを設計する。
AITQA と HiTab という2つの複雑なテーブル質問応答ベンチマーク上で OHD フレームワークを評価する。
論文 参考訳(メタデータ) (2026-02-02T11:22:43Z) - Forest-Guided Semantic Transport for Label-Supervised Manifold Alignment [12.374726282828561]
FoSTAはラベルインフォームド・フォレスト親和性から直接セマンティック表現を構築し、高速で階層的なセマンティックトランスポートを通じてそれらを調整する。
FoSTAは、バッチ修正や生物保護など、実用的な単一セルアプリケーションで強力なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-02-01T02:32:09Z) - Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - Modality Alignment across Trees on Heterogeneous Hyperbolic Manifolds [49.95082206008502]
ツリーを横断するアライメントは、画像とテキストのモダリティの両方に対してツリーのような階層的な特徴を構築し、調整する手法である。
本稿では,中間トランスフォーマー層からの視覚的クラストークンにクロスアテンション機構を適用した意味認識型視覚特徴抽出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-31T11:32:15Z) - SRCD: Semantic Reasoning with Compound Domains for Single-Domain
Generalized Object Detection [39.14676152740142]
単一DGODのためのSRCD(Semantic Reasoning with Compound Domains)を提案する。
我々のSRCDには、テクスチャベースの自己拡張(TBSA)モジュールと、局所言語意味推論(LGSR)モジュールの2つの主要コンポーネントが含まれています。
複数のベンチマークで大規模な実験を行い、提案したSRCDの有効性を示した。
論文 参考訳(メタデータ) (2023-07-04T14:39:59Z) - Advancing Incremental Few-shot Semantic Segmentation via Semantic-guided
Relation Alignment and Adaptation [98.51938442785179]
増分的な数ショットセマンティックセマンティックセマンティクスは、セマンティクスセマンティクスモデルを新しいクラスに漸進的に拡張することを目的としている。
このタスクは、データ不均衡のため、ベースクラスと新しいクラスの間で深刻な意味認識の問題に直面します。
本稿では,従来の意味情報のガイダンスを完全に考慮した意味誘導型関係調整適応法を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:40:52Z) - Mix and Reason: Reasoning over Semantic Topology with Data Mixing for
Domain Generalization [48.90173060487124]
ドメイン一般化(DG)は、複数のソースドメインから見えないターゲットドメインへの学習マシンを可能にする。
mire は2つのキーコンポーネント、すなわち Category-Aware Data Mixing (CDM) と Adaptive Semantic Topology Refinement (ASTR) で構成されている。
複数のDGベンチマーク実験により,提案法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2022-10-14T06:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。