論文の概要: Transformers Struggle to Learn to Search
- arxiv url: http://arxiv.org/abs/2412.04703v1
- Date: Fri, 06 Dec 2024 01:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:58:03.109854
- Title: Transformers Struggle to Learn to Search
- Title(参考訳): トランスフォーマーが検索を習う
- Authors: Abulhair Saparov, Srushti Pawar, Shreyas Pimpalgaonkar, Nitish Joshi, Richard Yuanzhe Pang, Vishakh Padmakumar, Seyed Mehran Kazemi, Najoung Kim, He He,
- Abstract要約: 基礎的なグラフ接続問題をテストベッドとして使用し、最小限の高被覆データを効果的に生成し、小型変圧器を訓練する。
適切なトレーニング分布が与えられると、トランスフォーマーは検索を学ぶことができる。
また、文脈内で検索を行うこと(すなわち、チェーン・オブ・シント)は、より大きなグラフで検索することを学ぶことができないことを解決しない。
- 参考スコア(独自算出の注目度): 32.231381064112085
- License:
- Abstract: Search is an ability foundational in many important tasks, and recent studies have shown that large language models (LLMs) struggle to perform search robustly. It is unknown whether this inability is due to a lack of data, insufficient model parameters, or fundamental limitations of the transformer architecture. In this work, we use the foundational graph connectivity problem as a testbed to generate effectively limitless high-coverage data to train small transformers and test whether they can learn to perform search. We find that, when given the right training distribution, the transformer is able to learn to search. We analyze the algorithm that the transformer has learned through a novel mechanistic interpretability technique that enables us to extract the computation graph from the trained model. We find that for each vertex in the input graph, transformers compute the set of vertices reachable from that vertex. Each layer then progressively expands these sets, allowing the model to search over a number of vertices exponential in the number of layers. However, we find that as the input graph size increases, the transformer has greater difficulty in learning the task. This difficulty is not resolved even as the number of parameters is increased, suggesting that increasing model scale will not lead to robust search abilities. We also find that performing search in-context (i.e., chain-of-thought) does not resolve this inability to learn to search on larger graphs.
- Abstract(参考訳): 探索は多くの重要なタスクにおいて基礎となる能力であり、近年の研究により、大規模言語モデル(LLM)が検索を頑健に行うのに苦労していることが示されている。
この障害がデータ不足、不十分なモデルパラメータ、あるいはトランスフォーマーアーキテクチャの基本的な制限によるものなのかは不明だ。
本研究では,基礎的なグラフ接続問題をテストベッドとして使用して,最小限の高被覆データを効果的に生成し,小型変圧器を訓練し,探索を学べるかどうかをテストする。
適切なトレーニング分布が与えられると、トランスフォーマーは検索を学ぶことができる。
我々は,学習したモデルから計算グラフを抽出できる新しい機械的解釈可能性技術を用いて,トランスフォーマーが学習したアルゴリズムを解析する。
入力グラフの各頂点に対して、変換器はその頂点から到達可能な頂点の集合を計算する。
各層はこれらの集合を段階的に拡張し、モデルが複数の頂点を指数関数的に探索することを可能にする。
しかし,入力グラフのサイズが大きくなるにつれて,タスクの学習が困難になることがわかった。
この難しさはパラメータの数が増えても解決されず、モデルスケールの増大が堅牢な探索能力に繋がらないことを示唆している。
また、文脈内で検索を行うこと(すなわち、チェーン・オブ・シント)は、より大きなグラフで検索することを学ぶことができないことを解決しない。
関連論文リスト
- A Theory for Compressibility of Graph Transformers for Transductive Learning [6.298115235439078]
グラフ上のトランスダクティブタスクは、典型的な教師付き機械学習タスクと根本的に異なる。
すべてのトレイン/テスト/バリデーションサンプルは、トレーニング中に存在しており、半教師付きタスクに似ています。
我々は、これらのネットワークの隠れた次元をどのように圧縮できるかという理論的な境界を定めている。
論文 参考訳(メタデータ) (2024-11-20T04:20:17Z) - One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。
単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文 参考訳(メタデータ) (2024-11-16T16:12:42Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Understanding Transformer Reasoning Capabilities via Graph Algorithms [25.08208816144745]
我々は、トランスフォーマースケーリングレギュレーションがアルゴリズムの様々なクラスを完璧に解けるかを検討する。
その結果、トランスフォーマーは多くのグラフ推論タスクで優れており、特殊なグラフニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-05-28T18:31:14Z) - How Transformers Learn Causal Structure with Gradient Descent [44.31729147722701]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - Deep Prompt Tuning for Graph Transformers [55.2480439325792]
ファインチューニングはリソース集約型であり、大きなモデルのコピーを複数保存する必要がある。
ファインチューニングの代替として,ディープグラフプロンプトチューニングと呼ばれる新しい手法を提案する。
事前学習したパラメータを凍結し、追加したトークンのみを更新することにより、フリーパラメータの数を減らし、複数のモデルコピーを不要にする。
論文 参考訳(メタデータ) (2023-09-18T20:12:17Z) - Are More Layers Beneficial to Graph Transformers? [97.05661983225603]
現在のグラフ変換器は、深さの増大によるパフォーマンス向上のボトルネックに悩まされている。
ディープグラフ変換器は、グローバルな注目の消滅能力によって制限されている。
本稿では,符号化表現に部分構造トークンを明示的に用いたDeepGraphという新しいグラフトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-03-01T15:22:40Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - What Dense Graph Do You Need for Self-Attention? [73.82686008622596]
我々はハイパーキューブにおけるトークンインタラクションをモデル化し、バニラ変換器と同等あるいはそれ以上の結果を示すスパーストランスフォーマーHypercube Transformerを提案する。
様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をうまく行いました。
論文 参考訳(メタデータ) (2022-05-27T14:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。