論文の概要: Relationship Detection on Tabular Data Using Statistical Analysis and Large Language Models
- arxiv url: http://arxiv.org/abs/2506.06371v1
- Date: Wed, 04 Jun 2025 12:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.237066
- Title: Relationship Detection on Tabular Data Using Statistical Analysis and Large Language Models
- Title(参考訳): 統計的解析と大規模言語モデルを用いた語彙データの関係検出
- Authors: Panagiotis Koletsis, Christos Panagiotopoulos, Georgios Th. Papadopoulos, Vasilis Efthymiou,
- Abstract要約: この研究は、知識グラフ(KG)を基準点として、CPAとして知られるタスクを用いて関係を検出するハイブリッドアプローチで実験する。
このアプローチは、潜在的KG関係の探索空間を減少させるために統計解析を用いて、大きな言語モデル(LLM)を利用する。
SemTab チャレンジによって提供される2つのベンチマークデータセットの実験評価は、各モジュールの影響と異なる最先端 LLM の有効性を評価する。
- 参考スコア(独自算出の注目度): 4.201987249923826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past few years, table interpretation tasks have made significant progress due to their importance and the introduction of new technologies and benchmarks in the field. This work experiments with a hybrid approach for detecting relationships among columns of unlabeled tabular data, using a Knowledge Graph (KG) as a reference point, a task known as CPA. This approach leverages large language models (LLMs) while employing statistical analysis to reduce the search space of potential KG relations. The main modules of this approach for reducing the search space are domain and range constraints detection, as well as relation co-appearance analysis. The experimental evaluation on two benchmark datasets provided by the SemTab challenge assesses the influence of each module and the effectiveness of different state-of-the-art LLMs at various levels of quantization. The experiments were performed, as well as at different prompting techniques. The proposed methodology, which is publicly available on github, proved to be competitive with state-of-the-art approaches on these datasets.
- Abstract(参考訳): ここ数年、テーブル解釈タスクは、その重要性と、この分野における新しい技術やベンチマークの導入により、大きな進歩を遂げてきた。
この研究は、知識グラフ(KG)を参照点として、CPAとして知られるタスクを用いて、ラベルのない表データの列間の関係を検出するハイブリッドアプローチで実験する。
このアプローチは、潜在的KG関係の探索空間を減少させるために統計解析を用いて、大きな言語モデル(LLM)を利用する。
探索空間を減らすためのこのアプローチの主なモジュールは、ドメインと範囲の制約検出、および関係の共出現分析である。
SemTab Challengeによって提供される2つのベンチマークデータセットの実験的評価は、各モジュールの影響と様々なレベルの量子化における異なる最先端LCMの有効性を評価する。
実験は異なるプロンプト技術と同様に行われた。
提案手法はgithubで公開されており、これらのデータセットの最先端アプローチと競合することが証明された。
関連論文リスト
- Evaluating LLMs on Entity Disambiguation in Tables [0.9786690381850356]
本研究は,Alligator(旧s-elbat),Dagobah,TURL,TableLlamaの4つのSTI SOTAアプローチを広範囲に評価することを提案する。
また, GPT-4o と GPT-4o-mini は, 様々な公開ベンチマークにおいて優れており, 評価に含めている。
論文 参考訳(メタデータ) (2024-08-12T18:01:50Z) - Top-K Pairwise Ranking: Bridging the Gap Among Ranking-Based Measures for Multi-Label Classification [120.37051160567277]
本稿では,Top-K Pairwise Ranking(TKPR)という新しい尺度を提案する。
一連の分析により、TKPRは既存のランキングベースの尺度と互換性があることが示されている。
一方,データ依存縮約法という新しい手法に基づいて,提案手法の急激な一般化を確立する。
論文 参考訳(メタデータ) (2024-07-09T09:36:37Z) - Text Serialization and Their Relationship with the Conventional Paradigms of Tabular Machine Learning [0.0]
本研究では,機械学習タスクにおける特徴表現と予測に言語モデル(LM)をどのように使用できるかを検討する。
本研究は,新しいLM技術が表型機械学習の伝統的なパラダイムとどのように比較されるかを評価する。
以上の結果から,現在の事前学習モデルは従来の手法に取って代わるべきではないことがわかった。
論文 参考訳(メタデータ) (2024-06-19T21:19:37Z) - Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables [18.330753799139845]
新しいデータセットであるWiki-TabNERは、既存のベンチマークデータセットを強化するために提案されている。
本稿では,Wiki-TabNERデータセットとラベリングプロセスの特徴について述べる。
さらに,内部テーブルNERタスク上での新しい大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z) - Joint Distributional Learning via Cramer-Wold Distance [0.7614628596146602]
高次元データセットの共分散学習を容易にするために,クレーマー-ウォルド距離正規化を導入し,クレーマー-ウォルド距離正規化法を提案する。
また、フレキシブルな事前モデリングを可能にする2段階学習手法を導入し、集約後と事前分布のアライメントを改善する。
論文 参考訳(メタデータ) (2023-10-25T05:24:23Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Knowledge Graph Embedding Methods for Entity Alignment: An Experimental
Review [7.241438112282638]
我々は、エンティティアライメントのための一般的な埋め込み手法の最初のメタレベル解析を行う。
KGsにより抽出された様々なメタ機能と異なる埋め込み手法の統計的に有意な相関関係が明らかとなった。
テストベッドの全現実世界のKGで有効性に応じて統計的に有意なランク付けを行う。
論文 参考訳(メタデータ) (2022-03-17T12:11:58Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。