論文の概要: Latent Chain-of-Thought Improves Structured-Data Transformers
- arxiv url: http://arxiv.org/abs/2605.11262v2
- Date: Tue, 19 May 2026 17:22:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 21:37:32.316836
- Title: Latent Chain-of-Thought Improves Structured-Data Transformers
- Title(参考訳): 潜在チェーン・オブ・サートは構造化データ変換器を改良する
- Authors: Carson Dudley, Samet Oymak,
- Abstract要約: 本稿では,遅延連鎖と,構造データに対する深さとループの影響について検討する。
我々は、潜在チェーン・オブ・シントが構造化データに対するテスト時間計算のスケーリングに有用な軸であることを示している。
- 参考スコア(独自算出の注目度): 26.742304109602614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought and more broadly test-time compute are known to augment the expressive capabilities of language models and have led to major innovations in reasoning. Motivated by this success, this paper explores latent chain-of-thought as well as the impact of depth and looping for time-series and tabular data. We propose a recurrent scheme in which a structured-data transformer, after an initial forward pass, compresses its query-position hidden states into feedback tokens that are appended to the input and processed again, allowing multiple rounds of latent computation before prediction. We compare CoT models against a same-depth no-CoT baseline, a deeper baseline matched to the CoT model in effective depth, and a looped transformer with weight-tied recurrence but no additional chain-of-thought tokens. Across 36 datasets in time-series forecasting and tabular prediction, latent chain-of-thought improves over the baseline on 7/9 time-series datasets (+12.63\% average gain) and 23/27 tabular datasets (+3.25\% average gain), with CoT models performing best on average in both settings. We also show that the benefit of CoT extends to pretrained foundation models: applying latent CoT to nanoTabPFN, a small open-source tabular foundation model, improves its performance above the much larger TabPFN-v2 on TabArena. Together, these results demonstrate that chain-of-thought is a useful axis for scaling test-time compute for structured data.
- Abstract(参考訳): 思考の連鎖とより広範なテストタイム計算は、言語モデルの表現能力を高めることで知られており、推論において大きな革新をもたらしている。
この成功に触発された本研究では、時系列データと表データに対する深度とループの影響だけでなく、潜在チェーン・オブ・シントについても検討する。
構造化データ変換器は、最初のフォワードパスの後、入力に付加され処理されるフィードバックトークンに格納されたクエリーポジションを圧縮し、予測の前に複数の遅延計算を行えるように再帰的手法を提案する。
我々はCoTモデルをCoTモデルと同一深度no-CoTベースラインと比較し、CoTモデルと有効深度で一致したより深いベースラインと、重み付き繰り返しを持つループ変換器とを比較した。
時系列予測と表形式での予測では、36のデータセットが7/9の時系列データセット(+12.63\%平均ゲイン)と23/27の表形式でのデータセット(+3.25\%平均ゲイン)のベースラインよりも改善され、CoTモデルは両方の設定で平均最高のパフォーマンスを示している。
また、CoTの利点は事前訓練された基礎モデルにも及んでいることを示し、TabArena上のはるかに大きなTabPFN-v2よりも、小さなオープンソースの表層基盤モデルであるnanoTabPFNに潜在CoTを適用することにより、その性能が向上することを示した。
これらの結果は、チェーン・オブ・シントが構造化データに対するテスト時間計算のスケーリングに有用な軸であることを証明している。
関連論文リスト
- Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - Patch-Level Tokenization with CNN Encoders and Attention for Improved Transformer Time-Series Forecasting [0.0]
本稿では,局所的時間的表現学習をグローバル依存モデルから分離する2段階予測フレームワークを提案する。
畳み込みニューラルネットワークは、固定長の時間的パッチで動作し、短距離時間的ダイナミクスと非線形特徴相互作用を抽出する。
その後、Transformerエンコーダがパッチ間の時間依存性をモデル化し、予測を生成する。
論文 参考訳(メタデータ) (2026-01-18T16:16:01Z) - Reason to Contrast: A Cascaded Multimodal Retrieval Framework [60.99421225506685]
ハイブリッドマルチモーダル検索フレームワークであるTTE-v2では、モデルや埋め込みサイズではなく、追加の入力トークン予算に基づく推論駆動のパフォーマンススケーリングが導入されている。
提案手法は,初期マルチモーダル検索をさらに強化し,テスト時により表現力の高いクエリ・候補間相互作用を可能にする。
MMEB-V2ベンチマークの実験では、TTE-v2-7Bは75.7%の新しい最先端の精度を実現し、TTE-v2-2Bは、かなり大きな外部データで訓練された7Bモデルと一致または上回った。
論文 参考訳(メタデータ) (2025-12-21T04:52:48Z) - Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文 参考訳(メタデータ) (2025-05-20T17:59:31Z) - Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - Loop Neural Networks for Parameter Sharing [1.1049608786515839]
本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。
提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。
本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
論文 参考訳(メタデータ) (2024-09-21T17:07:42Z) - Interpretable Feature Construction for Time Series Extrinsic Regression [0.028675177318965035]
一部のアプリケーション領域では、対象変数が数値であり、その問題は時系列外部回帰(TSER)として知られている。
TSERの文脈における頑健で解釈可能な特徴構築と選択のためのベイズ法の拡張を提案する。
私たちのアプローチは、TSERに取り組むためのリレーショナルな方法を利用します:(i)、リレーショナルデータスキームに格納されている時系列の多様で単純な表現を構築し、(ii)二次テーブルからデータを「フラット化」するために解釈可能な機能を構築するためにプロポジション化技術を適用します。
論文 参考訳(メタデータ) (2021-03-15T08:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。