論文の概要: The Mystery of the Pathological Path-star Task for Language Models
- arxiv url: http://arxiv.org/abs/2410.13779v1
- Date: Thu, 17 Oct 2024 17:18:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:32.864961
- Title: The Mystery of the Pathological Path-star Task for Language Models
- Title(参考訳): 言語モデルにおける病的パススター課題の謎
- Authors: Arvid Frydenlund,
- Abstract要約: 最近導入されたパススタータスクは、言語モデルの能力に対する制限を実証するために設計された最小限のタスクである。
代替設定で教師の強制でタスクが学習可能であることを実証し、一部は表現によるものであることを示した。
- 参考スコア(独自算出の注目度): 1.223779595809275
- License:
- Abstract: The recently introduced path-star task is a minimal task designed to exemplify limitations to the abilities of language models (Bachmann and Nagarajan, 2024). It involves a path-star graph where multiple arms radiate from a single starting node and each node is unique. Given the start node and a specified target node that ends an arm, the task is to generate the arm containing that target node. This is straightforward for a human but surprisingly difficult for language models, which did not outperform the random baseline. The authors hypothesized this is due to a deficiency in teacher-forcing and the next-token prediction paradigm. We demonstrate the task is learnable using teacher-forcing in alternative settings and that the issue is partially due to representation. We introduce a regularization method using structured samples of the same graph but with differing target nodes, improving results across a variety of model types. We provide RASP proofs showing the task is theoretically solvable. Finally, we find settings where an encoder-only model can consistently solve the task.
- Abstract(参考訳): 最近導入されたパススタータスクは、言語モデルの能力に対する制限を実証するために設計された最小限のタスクである(Bachmann and Nagarajan, 2024)。
パススターグラフは、1つのスタートノードから複数のアームが放射され、それぞれのノードがユニークである。
アームを終了させる特定のターゲットノードとスタートノードが与えられたら、そのターゲットノードを含むアームを生成する。
これは人間にとっては単純だが、言語モデルでは驚くほど困難であり、これはランダムなベースラインを上回りませんでした。
著者らは、これは教師の強制力不足と次世代の予測パラダイムの欠如によるものと仮定した。
代替設定で教師の強制でタスクが学習可能であることを実証し、一部は表現によるものであることを示した。
我々は,同じグラフの構造化サンプルを用いた正規化手法を提案するが,対象ノードが異なるため,様々なモデルタイプにまたがる結果が改善される。
この課題が理論的に解決可能であることを示す RASP 証明を提供する。
最後に、エンコーダのみのモデルがそのタスクを一貫して解決できるような設定を見つけます。
関連論文リスト
- Meta-GPS++: Enhancing Graph Meta-Learning with Contrastive Learning and Self-Training [22.473322546354414]
そこで我々はMeta-GPS++と呼ばれる少数ショットノード分類のための新しいフレームワークを提案する。
まず,同好および異好のグラフ上での識別ノード表現を効率よく学習する手法を採用する。
また、ラベルのないノードから貴重な情報を抽出するために自己学習を適用する。
論文 参考訳(メタデータ) (2024-07-20T03:05:12Z) - One for All: Towards Training One Graph Model for All Classification Tasks [61.656962278497225]
様々なグラフタスクの統一モデルは、主にグラフ学習領域に固有の課題のために、まだ探索されていない。
上記の課題に対処するために単一のグラフモデルを使用できる最初の汎用フレームワークである textbfOne for All (OFA) を提案する。
OFAは様々なタスクでうまく機能し、グラフ上の最初の汎用のクロスドメイン分類モデルとなる。
論文 参考訳(メタデータ) (2023-09-29T21:15:26Z) - Task-Equivariant Graph Few-shot Learning [7.78018583713337]
グラフニューラルネットワーク(GNN)は、少数ショットノード分類として知られる、限られた数のラベル付きノードでノードを分類できることが重要である。
本稿では,新しいアプローチであるタスク・平等グラフ数ショット学習(TEG)フレームワークを提案する。
我々のTEGフレームワークは、限られた数のトレーニングメタタスクを使用して、移行可能なタスク適応戦略を学習することを可能にする。
論文 参考訳(メタデータ) (2023-05-30T05:47:28Z) - Graph Few-shot Learning with Task-specific Structures [38.52226241144403]
既存のグラフ数ショット学習手法は一般的にグラフニューラルネットワーク(GNN)を利用する
メタタスクごとにタスク固有の構造を学習する新しいフレームワークを提案する。
このようにして、各メタタスクに適したタスク固有の構造を持つノード表現を学習することができる。
論文 参考訳(メタデータ) (2022-10-21T17:40:21Z) - Task-Adaptive Few-shot Node Classification [49.79924004684395]
数ショットの学習環境下でのタスク適応型ノード分類フレームワークを提案する。
具体的には,ラベル付きノードが豊富なクラスにメタ知識を蓄積する。
次に、提案したタスク適応モジュールを介して、ラベル付きノードが限定されたクラスにそのような知識を転送する。
論文 参考訳(メタデータ) (2022-06-23T20:48:27Z) - DOTIN: Dropping Task-Irrelevant Nodes for GNNs [119.17997089267124]
最近のグラフ学習アプローチでは、学習のためのグラフのサイズを減らすためのプール戦略が導入されている。
我々はDOTIN(underlineDrunderlineopping underlineTask-underlineIrrelevant underlineNodes)と呼ばれる新しいアプローチを設計し、グラフのサイズを減らす。
本手法は,グラフ分類やグラフ編集距離を含むグラフレベルのタスクにおいて,GATを約50%高速化する。
論文 参考訳(メタデータ) (2022-04-28T12:00:39Z) - Arch-Graph: Acyclic Architecture Relation Predictor for
Task-Transferable Neural Architecture Search [96.31315520244605]
Arch-Graphはタスク固有の最適アーキテクチャを予測するトランスファー可能なNASメソッドである。
Arch-Graphの転送性と,多数のタスクにわたる高いサンプル効率を示す。
わずか50モデルの予算の下で、2つの検索スペースで平均して0.16%と0.29%のアーキテクチャを見つけることができる。
論文 参考訳(メタデータ) (2022-04-12T16:46:06Z) - Graph Prototypical Networks for Few-shot Learning on Attributed Networks [72.31180045017835]
グラフメタ学習フレームワーク - Graph Prototypeal Networks (GPN) を提案する。
GPNは、属性付きネットワーク上でテキストミータ学習を行い、ターゲット分類タスクを扱うための高度に一般化可能なモデルを導出する。
論文 参考訳(メタデータ) (2020-06-23T04:13:23Z) - Sequential Graph Convolutional Network for Active Learning [53.99104862192055]
逐次グラフ畳み込みネットワーク(GCN)を用いた新しいプールベースアクティブラーニングフレームワークを提案する。
少数のランダムなサンプル画像がシードラベル付き例であるので、グラフのパラメータを学習してラベル付きノードと非ラベル付きノードを区別する。
我々はGCNの特性を利用してラベル付けされたものと十分に異なる未ラベルの例を選択する。
論文 参考訳(メタデータ) (2020-06-18T00:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。