論文の概要: Transformer See, Transformer Do: Copying as an Intermediate Step in Learning Analogical Reasoning
- arxiv url: http://arxiv.org/abs/2604.06501v1
- Date: Tue, 07 Apr 2026 22:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.261483
- Title: Transformer See, Transformer Do: Copying as an Intermediate Step in Learning Analogical Reasoning
- Title(参考訳): Transformer See, Transformer Do: アナロジカル推論学習における中間ステップとしてのコピー
- Authors: Philipp Hellwig, Willem Zuidema, Claire E. Stevenson, Martha Lewis,
- Abstract要約: メタラーニング(Meta-Learning for compositionality, MLC)を用いて, 類似推論タスクでトランスフォーマーを訓練する。
我々は,最も情報に富む問題要素にモデルを導く際に,文字文字列の類推が学習可能となることを発見した。
私たちの3層エンコーダデコーダモデルは、ほとんどのフロンティアモデルより優れています。
- 参考スコア(独自算出の注目度): 2.1424510747711314
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Analogical reasoning is a hallmark of human intelligence, enabling us to solve new problems by transferring knowledge from one situation to another. Yet, developing artificial intelligence systems capable of robust human-like analogical reasoning has proven difficult. In this work, we train transformers using Meta-Learning for Compositionality (MLC) on an analogical reasoning task (letter-string analogies) and assess their generalization capabilities. We find that letter-string analogies become learnable when guiding the models to attend to the most informative problem elements induced by including copying tasks in the training data. Furthermore, generalization to new alphabets becomes better when models are trained with more heterogeneous datasets, where our 3-layer encoder-decoder model outperforms most frontier models. The MLC approach also enables some generalization to compositions of trained transformations, but not to completely novel transformations. To understand how the model operates, we identify an algorithm that approximates the model's computations. We verify this using interpretability analyses and show that the model can be steered precisely according to expectations derived from the algorithm. Finally, we discuss implications of our findings for generalization capabilities of larger models and parallels to human analogical reasoning.
- Abstract(参考訳): 分析推論は人間の知能の目印であり、ある状況から別の状況に知識を移すことで、新しい問題を解決することができる。
しかし、堅牢な人間のようなアナロジー推論が可能な人工知能システムの開発は困難であることが証明されている。
本研究では,メタラーニング・フォー・コンポジションネス(MLC)を類似推論タスク(レター・ストリング・アナロジー)で学習し,その一般化能力を評価する。
トレーニングデータにタスクのコピーを含めることで、最も情報に富む問題要素にモデルを導く際に、文字文字列の類推が学習可能となる。
さらに、3層エンコーダデコーダモデルはフロンティアモデルよりも優れており、モデルがより異質なデータセットで訓練されると、新しいアルファベットへの一般化がより良くなる。
MLCアプローチはまた、訓練された変換の合成にいくつかの一般化を可能にするが、完全に新しい変換は起こらない。
モデルがどのように動作するかを理解するため、モデルの計算を近似するアルゴリズムを同定する。
解釈可能性解析を用いてこれを検証し,アルゴリズムから得られる期待値に応じて,モデルが正確に操縦可能であることを示す。
最後に,より大規模なモデルと,ヒトの類推的推論に類似する並列モデルの一般化能力について,本研究の意義について考察する。
関連論文リスト
- Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。
その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:23:29Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Understanding Addition in Transformers [2.07180164747172]
本稿では,n桁整数加算を行うために訓練された1層トランスフォーマーモデルの包括的解析を行う。
提案手法は,各桁を対象とする並列ストリームに分割し,各桁の異なる位置に合わせて最適化されたアルゴリズムを用いることを示唆している。
論文 参考訳(メタデータ) (2023-10-19T19:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。