論文の概要: When Can Transformers Ground and Compose: Insights from Compositional
Generalization Benchmarks
- arxiv url: http://arxiv.org/abs/2210.12786v1
- Date: Sun, 23 Oct 2022 17:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:35:58.671667
- Title: When Can Transformers Ground and Compose: Insights from Compositional
Generalization Benchmarks
- Title(参考訳): 変圧器の接地と構成:構成一般化ベンチマークからの考察
- Authors: Ankur Sikarwar, Arkil Patel, Navin Goyal
- Abstract要約: 人間は、言語発話を現実世界に基礎づけながら、構成的に推論することができる。
ReaSCANのような最近のベンチマークでは、グリッドの世界に根ざしたナビゲーションタスクを使用して、ニューラルモデルが同様の機能を示すかどうかを評価する。
本稿では,ReaSCAN の特殊アーキテクチャと gSCAN の修正版を比較検討する。
- 参考スコア(独自算出の注目度): 7.4726048754587415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can reason compositionally whilst grounding language utterances to the
real world. Recent benchmarks like ReaSCAN use navigation tasks grounded in a
grid world to assess whether neural models exhibit similar capabilities. In
this work, we present a simple transformer-based model that outperforms
specialized architectures on ReaSCAN and a modified version of gSCAN. On
analyzing the task, we find that identifying the target location in the grid
world is the main challenge for the models. Furthermore, we show that a
particular split in ReaSCAN, which tests depth generalization, is unfair. On an
amended version of this split, we show that transformers can generalize to
deeper input structures. Finally, we design a simpler grounded compositional
generalization task, RefEx, to investigate how transformers reason
compositionally. We show that a single self-attention layer with a single head
generalizes to novel combinations of object attributes. Moreover, we derive a
precise mathematical construction of the transformer's computations from the
learned network. Overall, we provide valuable insights about the grounded
compositional generalization task and the behaviour of transformers on it,
which would be useful for researchers working in this area.
- Abstract(参考訳): 人間は、言語発話を現実世界に基礎づけながら、構成的に推論することができる。
ReaSCANのような最近のベンチマークでは、グリッドの世界に根ざしたナビゲーションタスクを使用して、ニューラルモデルが同様の機能を示すかどうかを評価する。
本稿では,ReaSCAN の特殊アーキテクチャと gSCAN の修正版より優れた変換器モデルを提案する。
このタスクを解析すると,グリッドの世界におけるターゲット位置の同定がモデルの主な課題であることがわかった。
さらに、深度一般化をテストするReaSCANの特定の分割は不公平であることを示す。
この分割の修正版では、トランスフォーマーがより深い入力構造に一般化できることを示した。
最後に,より単純な基底合成一般化タスクrefexを設計し,トランスフォーマの合成方法を検討する。
一つのヘッドを持つ単一の自己アテンション層は、オブジェクト属性の新しい組み合わせに一般化する。
さらに、学習ネットワークから変換器の計算の正確な数学的構成を導出する。
全体としては,この領域の研究者にとって有用な,基礎となる構成一般化タスクとトランスフォーマーの挙動に関する貴重な知見を提供する。
関連論文リスト
- Attention as a Hypernetwork [22.087242869138223]
トランスフォーマーは、トレーニング中に構成部品に遭遇した可能性があるが、構成が存在しない新しい問題インスタンスに一般化することができる。
マルチヘッドアテンションをハイパーネットワークとして再構成することにより、構成可能な低次元ラテント符号がキークエリ固有の操作を規定していることを明らかにする。
この潜在コードは、ネットワークが目に見えないタスク構成で実行するサブタスクの予測であることがわかった。
論文 参考訳(メタデータ) (2024-06-09T15:08:00Z) - What Algorithms can Transformers Learn? A Study in Length Generalization [23.970598914609916]
アルゴリズムタスクにおける長さ一般化の具体的設定におけるトランスフォーマーの能力の範囲について検討する。
具体的には、Transformerの計算モデル用に設計されたプログラミング言語であるRASPを利用する。
我々の研究は、構成一般化のメカニズムとトランスフォーマーのアルゴリズム能力に関する新しい視点を提供する。
論文 参考訳(メタデータ) (2023-10-24T17:43:29Z) - SimPLR: A Simple and Plain Transformer for Scaling-Efficient Object Detection and Segmentation [49.65221743520028]
本研究は, 背骨と頭部が非階層的であり, 単一スケールの機能で動作するSimPLRを, スケール認識型トランスフォーマーベース検出器により検出できることを示す。
マルチスケールおよびシングルスケールの最先端と比較して、我々のモデルはより大きなキャパシティ(自己監督型)モデルとより事前学習データにより、はるかに良くスケールする。
論文 参考訳(メタデータ) (2023-10-09T17:59:26Z) - Out-of-Distribution Generalization in Algorithmic Reasoning Through
Curriculum Learning [4.191829617421395]
アウト・オブ・ディストリビューションの一般化は、ニューラルネットワークの長年の課題である。
OODGは、単純なコンポーネントタスクの分布全体からサンプリングされたサンプルを含むトレーニングセットが複雑な問題で起こりうることを示す。
論文 参考訳(メタデータ) (2022-10-07T01:21:05Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z) - Compositional Generalization and Decomposition in Neural Program
Synthesis [59.356261137313275]
本稿では,学習プログラムシンセサイザーの合成一般化能力の測定に焦点をあてる。
まず、プログラム合成法が一般化されるであろういくつかの異なる軸を特徴付ける。
2つの一般的な既存のデータセットに基づいて、これらの能力を評価するためのタスクのベンチマークスイートを導入する。
論文 参考訳(メタデータ) (2022-04-07T22:16:05Z) - SeqTR: A Simple yet Universal Network for Visual Grounding [88.03253818868204]
本稿では,視覚的接地作業のためのシンプルな汎用ネットワークSeqTRを提案する。
画像とテキストの入力を条件とした点予測問題として,視覚的グラウンドリングを行った。
このパラダイムの下では、視覚的なグラウンドタスクはタスク固有のブランチやヘッドなしでSeqTRネットワークに統合されます。
論文 参考訳(メタデータ) (2022-03-30T12:52:46Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Thinking Like Transformers [64.96770952820691]
本稿では,プログラミング言語の形式で変換器エンコーダの計算モデルを提案する。
RASPは、トランスフォーマーによって確実に学習できるタスクの解決策をプログラムするのにどのように使えるかを示す。
ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。
論文 参考訳(メタデータ) (2021-06-13T13:04:46Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。