論文の概要: CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics
- arxiv url: http://arxiv.org/abs/2603.04741v1
- Date: Thu, 05 Mar 2026 02:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.038469
- Title: CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics
- Title(参考訳): CONE: 複雑な数値データ保存ユニットと可変セマンティックスのための埋め込み
- Authors: Gyanendra Shrestha, Anna Pyayt, Michael Gubanov,
- Abstract要約: 本研究では,数値,範囲,ガウスを距離を保存するベクトル空間にエンコードするハイブリッドトランスフォーマーエンコーダモデルCONEを提案する。
多様な領域にまたがる大規模データセットについて広範な実験的評価を行う。
- 参考スコア(独自算出の注目度): 1.1087735229999816
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large pre-trained models (LMs) and Large Language Models (LLMs) are typically effective at capturing language semantics and contextual relationships. However, these models encounter challenges in maintaining optimal performance on tasks involving numbers. Blindly treating numerical or structured data as terms is inadequate -- their semantics must be well understood and encoded by the models. In this paper, we propose CONE, a hybrid transformer encoder pre-trained model that encodes numbers, ranges, and gaussians into an embedding vector space preserving distance. We introduce a novel composite embedding construction algorithm that integrates numerical values, ranges or gaussians together with their associated units and attribute names to precisely capture their intricate semantics. We conduct extensive experimental evaluation on large-scale datasets across diverse domains (web, medical, finance, and government) that justifies CONE's strong numerical reasoning capabilities, achieving an F1 score of 87.28% on DROP, a remarkable improvement of up to 9.37% in F1 over state-of-the-art (SOTA) baselines, and outperforming major SOTA models with a significant Recall@10 gain of up to 25%.
- Abstract(参考訳): 大規模事前学習モデル(LM)と大規模言語モデル(LLM)は、言語意味論と文脈的関係を捉えるのに一般的に有効である。
しかし、これらのモデルは、数を含むタスクにおいて最適なパフォーマンスを維持する上での課題に直面する。
数値データや構造化データを用語として盲目的に扱い、セマンティクスはモデルによってよく理解され、エンコードされなければならない。
本論文では,数値,範囲,ガウスを距離を保存するベクトル空間に符号化するハイブリッドトランスフォーマーエンコーダプレトレーニングモデルCONEを提案する。
本稿では, 数値, 範囲, ガウスを関連ユニットや属性名と統合して, 複雑な意味を正確に把握する合成組込み構築アルゴリズムを提案する。
多様なドメイン(Web, 医療, 金融, 政府)にわたる大規模データセットに対して, CONEの強力な数値推論能力の正当化, DROPの87.28%のF1スコア達成, 最先端(SOTA)ベースラインに対するF1の9.37%の大幅な改善, 最大25%のリコール@10ゲインを持つ主要なSOTAモデルを上回った。
関連論文リスト
- AI Generated Text Detection [0.0]
本稿では,従来の機械学習モデルとトランスフォーマーベースアーキテクチャの両方を含む,AIテキスト検出手法の評価を行う。
我々は、HC3とDAIGT v2という2つのデータセットを使用して、統一されたベンチマークを構築し、情報漏洩を防止するためにトピックベースのデータ分割を適用する。
その結果、文脈モデリングは語彙的特徴よりもはるかに優れていることが示され、話題記憶の緩和の重要性が強調された。
論文 参考訳(メタデータ) (2026-01-07T11:18:10Z) - Auto-Rubric: Learning to Extract Generalizable Criteria for Reward Modeling [37.237020102873]
リワードモデルは、大規模言語モデルと人間の価値の整合に不可欠であるが、その開発はコストのかかる選好データセットと低い解釈可能性によって妨げられている。
検証誘導型 textbfPropose-Evaluate-Revise パイプラインを用いて,高品質でクエリ固有のルーリックを推論する,トレーニング不要のフレームワークを構築した。
わずか70の選好ペア(ソースデータの1.5%)を使用することで、Qwen3-8Bのようなより小型のモデルでも、専門的で完全に訓練されたモデルよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-10-20T09:01:37Z) - LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - Steady Progress Beats Stagnation: Mutual Aid of Foundation and Conventional Models in Mixed Domain Semi-Supervised Medical Image Segmentation [36.07607318734544]
ファンデーションモデルとコンベンショナルモデルのためのシナジスティックトレーニングフレームワーク(SynFoC)を紹介する。
我々は,スクラッチから訓練された従来のモデルが,基礎モデルの信頼性の高い誤予測を補正する能力を持っていることを観察する。
4つのパブリックなマルチドメインデータセットにまたがって,本手法の優位性を実証する。
論文 参考訳(メタデータ) (2025-03-21T10:03:32Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - FT2Ra: A Fine-Tuning-Inspired Approach to Retrieval-Augmented Code Completion [24.964973946366335]
我々は,真の微調整を模倣することを目的とした新しい検索手法FT2Raを開発した。
FT2RaはUniXcoderの最良のベースライン方式に比べて精度が4.29%向上している。
論文 参考訳(メタデータ) (2024-04-02T01:42:15Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Injecting Numerical Reasoning Skills into Language Models [41.78745615537762]
数値推論のような高いレベルの推論スキルは、言語モデリングの目的のみから学ぶことが難しい。
数値推論が自動データ生成に有効であることを示し、この技術を予め訓練されたLMに注入できることを示す。
我々は、我々のモデルであるGenBERTがDROP(49.3$rightarrow$ 72.3 F1)の性能を劇的に改善し、同等の大きさの最先端モデルに匹敵する性能に達することを示す。
論文 参考訳(メタデータ) (2020-04-09T11:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。