論文の概要: In-Context Compositional Learning via Sparse Coding Transformer
- arxiv url: http://arxiv.org/abs/2511.20194v1
- Date: Tue, 25 Nov 2025 11:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.421893
- Title: In-Context Compositional Learning via Sparse Coding Transformer
- Title(参考訳): スパース符号化変換器によるインコンテキスト構成学習
- Authors: Wei Chen, Jingxi Yu, Zichen Miao, Qiang Qiu,
- Abstract要約: 本稿では,その構成作業能力を高めるため,注意の再構築を提案する。
スパース符号化では、データはそれらの構成規則を捉える係数を持つ辞書原子のスパース結合として表現される。
本研究では,S-RAVENデータセットとRAVENデータセットに対するアプローチの有効性を示す。
- 参考スコア(独自算出の注目度): 21.27564345380246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures have achieved remarkable success across language, vision, and multimodal tasks, and there is growing demand for them to address in-context compositional learning tasks. In these tasks, models solve the target problems by inferring compositional rules from context examples, which are composed of basic components structured by underlying rules. However, some of these tasks remain challenging for Transformers, which are not inherently designed to handle compositional tasks and offer limited structural inductive bias. In this work, inspired by the principle of sparse coding, we propose a reformulation of the attention to enhance its capability for compositional tasks. In sparse coding, data are represented as sparse combinations of dictionary atoms with coefficients that capture their compositional rules. Specifically, we reinterpret the attention block as a mapping of inputs into outputs through projections onto two sets of learned dictionary atoms: an encoding dictionary and a decoding dictionary. The encoding dictionary decomposes the input into a set of coefficients, which represent the compositional structure of the input. To enhance structured representations, we impose sparsity on these coefficients. The sparse coefficients are then used to linearly combine the decoding dictionary atoms to generate the output. Furthermore, to assist compositional generalization tasks, we propose estimating the coefficients of the target problem as a linear combination of the coefficients obtained from the context examples. We demonstrate the effectiveness of our approach on the S-RAVEN and RAVEN datasets. For certain compositional generalization tasks, our method maintains performance even when standard Transformers fail, owing to its ability to learn and apply compositional rules.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、言語、ビジョン、マルチモーダルタスクで顕著な成功を収めており、コンテクスト内構成学習タスクに対処する必要性が高まっている。
これらのタスクにおいて、モデルは、基礎となるルールによって構成される基本的なコンポーネントで構成されたコンテキスト例から構成規則を推論することで、対象の問題を解決する。
しかし、これらのタスクのいくつかは、コンポジションタスクを処理し、限られた構造的帰納バイアスを提供するよう本質的に設計されていないトランスフォーマーにとって依然として困難である。
本研究はスパース符号化の原理に着想を得て,その構成作業能力を高めるために注意の再構築を提案する。
スパース符号化では、データはそれらの構成規則を捉える係数を持つ辞書原子のスパース結合として表現される。
具体的には、注意ブロックを2組の学習辞書(符号化辞書と復号辞書)への投影を通して入力を出力にマッピングするものとして再解釈する。
符号化辞書は入力を係数の集合に分解し、入力の構成構造を表す。
構造表現を高めるために,これらの係数に空間性を課す。
次にスパース係数を用いてデコード辞書原子を線形に結合して出力を生成する。
さらに, 構成一般化タスクを支援するために, 対象問題の係数を, 文脈例から得られた係数の線形結合として推定することを提案する。
本研究では,S-RAVENデータセットとRAVENデータセットに対するアプローチの有効性を示す。
コンポジション一般化タスクでは,コンポジションルールを学習し適用する能力のため,標準トランスフォーマーがフェールしても性能を維持できる。
関連論文リスト
- Variational Task Vector Composition [53.476598858325985]
本稿では,構成係数を潜在変数とみなし,ベイズ推定フレームワークで推定する変動タスクベクトル合成を提案する。
タスクベクトルにおける構造的冗長性の観測に動機付けられ,空間性を促進するスパイク・アンド・スラブ前処理を導入する。
本研究では, 構成係数を不確実性と重要度の両方に基づいてフィルタすることにより, 制御可能な後部構造を構築するゲートサンプリング機構を開発した。
論文 参考訳(メタデータ) (2025-09-21T02:46:02Z) - The Coverage Principle: A Framework for Understanding Compositional Generalization [31.762330857169914]
合成タスクのパターンマッチングに主に依存するモデルは、同じコンテキストで使用した場合に同じ結果が得られるフラグメントを置換する以外には、確実に一般化できないことを示す。
我々は,このフレームワークがトランスフォーマーの一般化能力に強い予測力を持つことを実証した。
論文 参考訳(メタデータ) (2025-05-26T17:55:15Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Compositionality as Lexical Symmetry [42.37422271002712]
意味解析、命令追従、質問応答といったタスクでは、標準的なディープネットワークは小さなデータセットから合成的に一般化できない。
本稿では、モデルよりもデータ分布の対称性の制約として、構成性のドメイン一般およびモデル非依存の定式化を提案する。
LEXSYMと呼ばれる手法は,これらの変換を自動的に検出し,通常のニューラルシーケンスモデルのトレーニングデータに適用する。
論文 参考訳(メタデータ) (2022-01-30T21:44:46Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Hierarchical Poset Decoding for Compositional Generalization in Language [52.13611501363484]
出力が部分的に順序付けられた集合(命題)である構造化予測タスクとして人間の言語理解を形式化する。
現在のエンコーダ・デコーダアーキテクチャは意味論のポーズ構造を適切に考慮していない。
本稿では,言語における合成一般化のための新しい階層型ポーズデコーディングパラダイムを提案する。
論文 参考訳(メタデータ) (2020-10-15T14:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。