論文の概要: Improving Robustness of Tabular Retrieval via Representational Stability
- arxiv url: http://arxiv.org/abs/2604.24040v2
- Date: Tue, 28 Apr 2026 02:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.842165
- Title: Improving Robustness of Tabular Retrieval via Representational Stability
- Title(参考訳): 表現安定性による語彙検索のロバスト性向上
- Authors: Kushal Raj Bhandari, Adarsh Singh, Jianxi Gao, Soham Dan, Vivek Gupta,
- Abstract要約: トランスフォーマーベースのテーブル検索システムは、構造化テーブルをトークンシーケンスにフラット化し、シリアライズの選択に敏感な検索を可能にする。
意味論的に等価なシリアライゼーションは、ベンチマークや検索ファミリ間でかなり異なる埋め込みや検索結果を生成することができることを示す。
単一シリアライズ埋め込みをセントロイドターゲットにマッピングする冷凍エンコーダ上に,軽量な残差ボトルネックアダプタを導入する。
- 参考スコア(独自算出の注目度): 17.799512825169504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based table retrieval systems flatten structured tables into token sequences, making retrieval sensitive to the choice of serialization even when table semantics remain unchanged. We show that semantically equivalent serializations, such as $\texttt{csv}$, $\texttt{tsv}$, $\texttt{html}$, $\texttt{markdown}$, and $\texttt{ddl}$, can produce substantially different embeddings and retrieval results across multiple benchmarks and retriever families. To address this instability, we treat serialization embedding as noisy views of a shared semantic signal and use its centroid as a canonical target representation. We show that centroid averaging suppresses format-specific variation and can recover the semantic content common to different serializations when format-induced shifts differ across tables. Empirically, centroid representations outrank individual formats in aggregate pairwise comparisons across $\texttt{MPNet}$, $\texttt{BGE-M3}$, $\texttt{ReasonIR}$, and $\texttt{SPLADE}$. We further introduce a lightweight residual bottleneck adapter on top of a frozen encoder that maps single-serialization embeddings towards centroid targets while preserving variance and enforcing covariance regularization. The adapter improves robustness for several dense retrievers, though gains are model-dependent and weaker for sparse lexical retrieval. These results identify serialization sensitivity as a major source of retrieval variance and show the promise of post hoc geometric correction for serialization-invariant table retrieval.
- Abstract(参考訳): トランスフォーマーベースのテーブル検索システムは、構造化テーブルをトークンシーケンスに平らにし、テーブルの意味が変わらない場合でもシリアライズの選択に敏感に検索を行う。
例えば、$\texttt{csv}$, $\texttt{tsv}$, $\texttt{html}$, $\texttt{markdown}$, $\texttt{ddl}$は、複数のベンチマークやレトリバーファミリにまたがって、かなり異なる埋め込みや検索結果を生成することができる。
この不安定性に対処するために、直列化埋め込みを共有セマンティック信号のノイズの多いビューとして扱い、そのセントロイドを標準的ターゲット表現として利用する。
本研究では,Centroid 平均化によって形式固有の変化が抑制され,表間の形式的変化が相違する場合に,異なるシリアライゼーションに共通するセマンティックな内容が復元可能であることを示す。
経験的に、Centroid表現は、$\texttt{MPNet}$, $\texttt{BGE-M3}$, $\texttt{ReasonIR}$, $\texttt{SPLADE}$の合計対比較で個々のフォーマットを上回ります。
さらに, 分散を保ち, 共分散正則化を強制しながら, 単一シリアライズ埋め込みをセントロイドターゲットにマッピングする冷凍エンコーダ上に, 軽量な残差ボトルネックアダプタを導入する。
このアダプタは、複数の高密度レトリバーの堅牢性を改善するが、利得はモデル依存であり、疎語彙検索には弱い。
これらの結果は,直列化の感度を検索のばらつきの主な原因として同定し,直列化不変テーブル検索におけるポストホック幾何補正の可能性を示唆している。
関連論文リスト
- Multi-Vector Index Compression in Any Modality [73.7330345057813]
後期の相互作用は、テキスト、画像、ビジュアルドキュメント、ビデオにおける情報検索の主要なパラダイムとして現れてきた。
インデックス圧縮には,シーケンスリサイズ,メモリトークン,階層プール,新しいアテンション誘導クラスタリング(AGC)の4つのアプローチを導入する。
AGCは、ドキュメントの最もセマンティックな領域をクラスタセントロイドとして識別し、トークンの集合を重み付けするために注意誘導機構を使用する。
論文 参考訳(メタデータ) (2026-02-24T18:57:33Z) - Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation [22.803751188961865]
検索は類似性マッチングを超えて移動し、代わりに潜在コンポーネントを操作するべきだと我々は主張する。
我々は、無傷ユニットの階層を構築し、検索可能な高レベルノード組織を維持するxMemoryを提案する。
論文 参考訳(メタデータ) (2026-02-02T12:04:58Z) - STAR: Semantic Table Representation with Header-Aware Clustering and Adaptive Weighted Fusion [1.483000637348699]
STAR(Semantic Table Representation)はセマンティッククラスタリングと重み付き融合によってセマンティックテーブル表現を改善する軽量フレームワークである。
全てのデータセットにおいて,STARはQGpTよりも連続的に高いリコールを実現していることを示す。
論文 参考訳(メタデータ) (2026-01-22T11:08:46Z) - CORE-T: COherent REtrieval of Tables for Text-to-SQL [91.76918495375384]
CORE-Tはスケーラブルでトレーニング不要なフレームワークで、テーブルに目的のメタデータを付加し、軽量なテーブル互換キャッシュをプリコンプリートする。
バード、スパイダー、MMQAを越えて、CORE-Tはテーブル選択F1を最大22.7ポイント改善し、最大42%のテーブルを検索する。
論文 参考訳(メタデータ) (2026-01-19T14:51:23Z) - Tailoring Table Retrieval from a Field-aware Hybrid Matching Perspective [70.13748256886288]
表検索はテキスト検索に比べて少ない。
異なるテーブルフィールドは、異なるマッチングの好みを持つ。
テーブル調整ハイブリドマッチングrEtriever(THYME)について紹介する。
論文 参考訳(メタデータ) (2025-03-04T03:57:10Z) - SEMv3: A Fast and Robust Approach to Table Separation Line Detection [48.75713662571455]
テーブル構造認識(TSR)は、テーブル固有の構造を入力画像から解析することを目的としている。
スプリット・アンド・マージ(Split-and-merge)パラダイムは、テーブル分離線検出が不可欠であるテーブル構造を解析するための重要なアプローチである。
本稿では, SEMv3 (Split, Embed, Merge) を提案する。
論文 参考訳(メタデータ) (2024-05-20T08:13:46Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Learning to Embed Categorical Features without Embedding Tables for
Recommendation [22.561967284428707]
本稿では,組込みテーブルを深層埋め込みネットワークに置き換え,組込みを高速に計算する別の組込みフレームワークを提案する。
エンコーディングモジュールは決定論的であり、学習不能であり、ストレージが不要である一方、埋め込みネットワークはトレーニング時間中に更新され、埋め込み生成が学習される。
論文 参考訳(メタデータ) (2020-10-21T06:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。