論文の概要: Can Constructions "SCAN" Compositionality ?
- arxiv url: http://arxiv.org/abs/2509.20074v1
- Date: Wed, 24 Sep 2025 12:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.813339
- Title: Can Constructions "SCAN" Compositionality ?
- Title(参考訳): 構成性"SCAN"は可能か?
- Authors: Ganesh Katrapati, Manish Shrivastava,
- Abstract要約: 列列列モデルは、他の多くのタスクに精通しながらも、構成性や体系的な一般化に苦しむ。
疑似コンストラクションをマイニングするための教師なしの手順を導入し,トレーニングデータから可変スロットテンプレートを自動的に抽出する。
本研究は, 重度建築・訓練・レジストレーションの代替として, 建設対応型プレプロセッシングを約束することを強調した。
- 参考スコア(独自算出の注目度): 3.052889399420755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence to Sequence models struggle at compositionality and systematic generalisation even while they excel at many other tasks. We attribute this limitation to their failure to internalise constructions conventionalised form meaning pairings that license productive recombination. Building on these insights, we introduce an unsupervised procedure for mining pseudo-constructions: variable-slot templates automatically extracted from training data. When applied to the SCAN dataset, our method yields large gains out-of-distribution splits: accuracy rises to 47.8 %on ADD JUMP and to 20.3% on AROUND RIGHT without any architectural changes or additional supervision. The model also attains competitive performance with? 40% of the original training data, demonstrating strong data efAciency. Our findings highlight the promise of construction-aware preprocessing as an alternative to heavy architectural or training-regime interventions.
- Abstract(参考訳): 列列列モデルは、他の多くのタスクに精通しながらも、構成性や体系的な一般化に苦しむ。
この制限は、生産的な組換えをライセンスするペア化を意味する従来の形式を内部化しなかったためである。
これらの知見に基づいて、変数スロットテンプレートがトレーニングデータから自動的に抽出されるという、疑似コンストラクションをマイニングするための教師なし手順を導入する。
SCANデータセットに適用すると,ADD JUMPの精度は47.8%,AROUND RIGHTの精度は20.3%に向上する。
モデルは、競争性能も達成しますか?
トレーニングデータの40%は,強いデータ効率を示すものだ。
本研究は, 重度建築・訓練・レジストレーションの代替として, 建設対応型プレプロセッシングを約束することを強調した。
関連論文リスト
- Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。
具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文 参考訳(メタデータ) (2025-04-06T03:23:48Z) - CONSTRUCTA: Automating Commercial Construction Schedules in Fabrication Facilities with Large Language Models [9.419063976761175]
本稿では,半導体製造などの複雑なプロジェクトにおいて,LCMを活用して構築スケジュールを最適化する新しいフレームワークを提案する。
ConSTRUCTAは,(1)静的なRAGを通して構築固有の知識を統合すること,(2)アーキテクチャの専門知識にインスパイアされたコンテキストサンプリング技術を用いて関連するインプットを提供すること,(3)スケジュールを専門家の好みに合わせるために構築DPOを配置すること,といった課題に対処する。
論文 参考訳(メタデータ) (2025-02-17T17:35:42Z) - You Don't Need Domain-Specific Data Augmentations When Scaling Self-Supervised Learning [8.384940156285847]
JEA(Joint-Embedding Architectures)とSSL(Self-Supervised Learning)は、優れたパフォーマンスを実現している。
生成的再構成モデルではマスキング以外のデータ拡張を使わずに高い性能を示した。
トレーニングデータの大きさが十分大きい場合, 画像の強い表現はJEAで得られ, 刈り取りだけはサイズを変えずに得られることを示す。
論文 参考訳(メタデータ) (2024-06-13T16:30:03Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - Bounding Reconstruction Attack Success of Adversaries Without Data
Priors [53.41619942066895]
機械学習(ML)モデルに対する再構成攻撃は、機密データの漏洩の強いリスクをもたらす。
本研究では,現実的な対角的環境下での再建成功に関する公式な上限を提供する。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z) - Increasing The Performance of Cognitively Inspired Data-Efficient
Language Models via Implicit Structure Building [6.445605125467575]
階層型文構造に関する教師なし予測をモデルアーキテクチャに組み込んだ言語モデルを訓練する。
StructFormerモデルは、限られた事前学習データに基づいて教師なしの構文誘導でうまく機能することが示されている。
BabyLMチャレンジが提供する39のタスクに対するモデルの評価は、階層的バイアスをアーキテクチャに組み込むモデルの改善を期待できることを示す。
論文 参考訳(メタデータ) (2023-10-31T16:26:36Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - A diverse large-scale building dataset and a novel plug-and-play domain
generalization method for building extraction [2.578242050187029]
リモートセンシング画像からのビルディング抽出の開発を容易にするために,新しいビルディングデータセットを導入し,新しい領域一般化手法を提案する。
WHU-Mixビルディングデータセットは、世界中から収集された43,727の多様な画像を含むトレーニング/検証セットと、5大陸5都市からの8402の画像を含むテストセットで構成されている。
建物抽出モデルの一般化能力をさらに向上するために,バッチ型混合(BSM)というドメイン一般化手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T01:43:13Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。