論文の概要: Causal Masking on Spatial Data: An Information-Theoretic Case for Learning Spatial Datasets with Unimodal Language Models
- arxiv url: http://arxiv.org/abs/2510.27009v1
- Date: Thu, 30 Oct 2025 21:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.917176
- Title: Causal Masking on Spatial Data: An Information-Theoretic Case for Learning Spatial Datasets with Unimodal Language Models
- Title(参考訳): 空間データに基づく因果マスキング:一様言語モデルを用いた空間データセット学習のための情報理論ケース
- Authors: Jared Junkin, Samuel Nathanson,
- Abstract要約: 我々は、空間データとシーケンシャルデータの両方で双方向および因果自己認識機構を持つ言語モデルを訓練する。
以上の結果から,空間板上でトレーニングしたモデル – 因果マスキングを施したテキスト – は連続データでトレーニングしたモデルよりも強い演奏強度を連続的に達成できることがわかった。
- 参考スコア(独自算出の注目度): 0.6015898117103068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are traditionally designed around causal masking. In domains with spatial or relational structure, causal masking is often viewed as inappropriate, and sequential linearizations are instead used. Yet the question of whether it is viable to accept the information loss introduced by causal masking on nonsequential data has received little direct study, in part because few domains offer both spatial and sequential representations of the same dataset. In this work, we investigate this issue in the domain of chess, which naturally supports both representations. We train language models with bidirectional and causal self-attention mechanisms on both spatial (board-based) and sequential (move-based) data. Our results show that models trained on spatial board states - \textit{even with causal masking} - consistently achieve stronger playing strength than models trained on sequential data. While our experiments are conducted on chess, our results are methodological and may have broader implications: applying causal masking to spatial data is a viable procedure for training unimodal LLMs on spatial data, and in some domains is even preferable to sequentialization.
- Abstract(参考訳): 言語モデルは伝統的に因果マスクを中心に設計されている。
空間的あるいは関係的な構造を持つ領域では、因果マスクはしばしば不適切と見なされ、代わりに逐次線形化が用いられる。
しかし、非逐次データに対する因果マスキングによって引き起こされる情報損失を受け入れることができるかどうかという問題は直接的に研究されることがほとんどなく、また、同じデータセットの空間的およびシーケンシャルな表現を提供するドメインがほとんどないためである。
本研究では,両表現を自然にサポートするチェスの領域におけるこの問題について検討する。
我々は、空間的(ボードベース)データと逐次的(移動ベース)データの両方に基づいて、双方向および因果自己認識機構を持つ言語モデルを訓練する。
以上の結果から,空間基板上でトレーニングしたモデル – 因果マスキングを用いた‘textit{even’ – は連続データでトレーニングしたモデルよりも強い演奏強度を連続的に達成できることがわかった。
空間データに因果マスキングを適用することは、空間データに一助的LSMを訓練するための実行可能な手順であり、いくつかの領域ではシーケンシャル化よりも好ましい。
関連論文リスト
- DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation [62.889835139583965]
我々は、ソースデータとターゲットデータに基づいて、暗黙の基盤となる表面表現を同時に学習する教師なし補助タスクを導入する。
両方のドメインが同じ遅延表現を共有しているため、モデルは2つのデータソース間の不一致を許容せざるを得ない。
実験の結果,本手法は実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
論文 参考訳(メタデータ) (2023-04-06T17:36:23Z) - Deep Spatial Domain Generalization [8.102110157532556]
本研究では,空間データをグラフとして扱う空間グラフニューラルネットワークを開発し,各ノードに空間埋め込みを学習する。
提案手法は,テストフェーズ中に見つからない位置の空間埋め込みを推定し,下流タスクモデルのパラメータを目標位置に直接デコードする。
論文 参考訳(メタデータ) (2022-10-03T06:16:20Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - i-Mix: A Domain-Agnostic Strategy for Contrastive Representation
Learning [117.63815437385321]
対照的な表現学習を改善するために, 単純で効果的なドメインに依存しない正規化戦略i-Mixを提案する。
実験では、i-Mixはドメイン間の学習表現の質を一貫して改善することを示した。
論文 参考訳(メタデータ) (2020-10-17T23:32:26Z) - Learning Self-Expression Metrics for Scalable and Inductive Subspace
Clustering [5.587290026368626]
サブスペースクラスタリングは、高次元データをクラスタリングするための最先端のアプローチとして確立されている。
本研究では,シアムニューラルネットワークアーキテクチャを用いて,サブスペース親和性関数を学習するための新しい距離学習手法を提案する。
我々のモデルは、パラメータの一定数とメモリフットプリントの恩恵を受けており、かなり大きなデータセットにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-27T15:40:12Z) - Generative Model-driven Structure Aligning Discriminative Embeddings for
Transductive Zero-shot Learning [21.181715602603436]
本稿では、潜在空間における視覚的および意味的なデータを整列する投影関数を学習するためのニューラルネットワークに基づくモデルを提案する。
AWA1, AWA2, CUB, SUN, FLOなどの標準ベンチマークデータセットにおいて, 優れた性能を示す。
また,ラベル付きデータ構造が極めて少ない場合においても,モデルの有効性を示す。
論文 参考訳(メタデータ) (2020-05-09T18:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。