論文の概要: Systematic Generalization on gSCAN: What is Nearly Solved and What is
Next?
- arxiv url: http://arxiv.org/abs/2109.12243v1
- Date: Sat, 25 Sep 2021 00:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:39:49.232203
- Title: Systematic Generalization on gSCAN: What is Nearly Solved and What is
Next?
- Title(参考訳): gSCANの体系的一般化: ほぼ解決され,次は何になるのか
- Authors: Linlu Qiu, Hexiang Hu, Bowen Zhang, Peter Shaw, Fei Sha
- Abstract要約: クロスモーダルアテンションを持つ汎用トランスフォーマーベースモデルは,gSCANベンチマークの大部分で高い性能を達成している。
本稿では,オブジェクト間の関係を視覚環境に組み込むデータを生成することで,gSCANのための新しいタスクを提案する。
- 参考スコア(独自算出の注目度): 31.981204314287282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We analyze the grounded SCAN (gSCAN) benchmark, which was recently proposed
to study systematic generalization for grounded language understanding. First,
we study which aspects of the original benchmark can be solved by commonly used
methods in multi-modal research. We find that a general-purpose
Transformer-based model with cross-modal attention achieves strong performance
on a majority of the gSCAN splits, surprisingly outperforming more specialized
approaches from prior work. Furthermore, our analysis suggests that many of the
remaining errors reveal the same fundamental challenge in systematic
generalization of linguistic constructs regardless of visual context. Second,
inspired by this finding, we propose challenging new tasks for gSCAN by
generating data to incorporate relations between objects in the visual
environment. Finally, we find that current models are surprisingly data
inefficient given the narrow scope of commands in gSCAN, suggesting another
challenge for future work.
- Abstract(参考訳): 近年,接地言語理解のための体系的一般化を研究するために提案されたgscan(grounded scan)ベンチマークを分析した。
まず,従来のベンチマークのどの側面を,マルチモーダルな研究でよく用いられる手法で解くことができるかを検討する。
クロスモーダルな注意力を持つ汎用トランスフォーマーモデルは,gscanスプリットの大部分において強力なパフォーマンスを達成し,先行研究のより専門的なアプローチを驚くほど上回っています。
さらに,残りの誤りの多くは,視覚的文脈によらず,言語構造を体系的に一般化する上で,同じ根本的な課題が示されることが示唆された。
第2に,この発見に触発されて,オブジェクト間の関係を視覚環境に組み込むデータを生成することによって,gSCANの新しい課題を提案する。
最後に、gSCANのコマンドの範囲が狭いため、現在のモデルは驚くほどデータ効率が悪く、将来の作業には別の課題が考えられる。
関連論文リスト
- Large Search Model: Redefining Search Stack in the Era of LLMs [63.503320030117145]
我々は,1つの大言語モデル(LLM)で検索タスクを統一することにより,従来の検索スタックを再定義する,大規模検索モデルと呼ばれる新しい概念的フレームワークを導入する。
全てのタスクは自動回帰テキスト生成問題として定式化され、自然言語のプロンプトを使ってタスクをカスタマイズできる。
提案フレームワークは,LLMの強力な言語理解と推論能力を活用し,既存の検索スタックを簡素化しつつ,検索結果の質を向上させる能力を提供する。
論文 参考訳(メタデータ) (2023-10-23T05:52:09Z) - Rethinking Complex Queries on Knowledge Graphs with Neural Link Predictors [58.340159346749964]
本稿では,証明可能な推論能力を備えた複雑なクエリを用いたエンドツーエンド学習を支援するニューラルシンボリック手法を提案する。
これまでに検討されていない10種類の新しいクエリを含む新しいデータセットを開発する。
提案手法は,新しいデータセットにおいて先行手法を著しく上回り,既存データセットにおける先行手法を同時に上回っている。
論文 参考訳(メタデータ) (2023-04-14T11:35:35Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Compositional Semantic Parsing with Large Language Models [27.627684573915147]
我々はより大きな語彙を持つより現実的な意味解析タスクにおける課題を特定する。
我々の最良の方法は最短のプロンプトに基づいている。
同様の取り組みが、他のタスクやドメインで新たな結果をもたらすことを期待しています。
論文 参考訳(メタデータ) (2022-09-29T17:58:28Z) - Equivariant Transduction through Invariant Alignment [71.45263447328374]
グループ内ハードアライメント機構を組み込んだ,新しいグループ同変アーキテクチャを提案する。
我々のネットワーク構造は、既存のグループ同変アプローチよりも強い同変特性を発達させることができる。
また、SCANタスクにおいて、従来のグループ同変ネットワークよりも経験的に優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-22T11:19:45Z) - Recursive Decoding: A Situated Cognition Approach to Compositional
Generation in Grounded Language Understanding [0.0]
本稿では,Seq2seqモデルをトレーニングおよび使用するための新しい手順であるRecursive Decodingを提案する。
1回のパスで出力シーケンス全体を生成するのではなく、モデルは一度に1つのトークンを予測するように訓練される。
RDは、gSCANの2つの以前に無視された一般化タスクに対して劇的な改善をもたらす。
論文 参考訳(メタデータ) (2022-01-27T19:13:42Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - ReaSCAN: Compositional Reasoning in Language Grounding [5.529897656818874]
我々は,gSCANが構成的解釈を必要とせず,その手順やシナリオの多くの詳細がタスクの成功に必要でないことを示す。
本稿では,gSCANをベースとしたベンチマークデータセットReaSCANを提案する。
論文 参考訳(メタデータ) (2021-09-18T19:46:08Z) - Think before you act: A simple baseline for compositional generalization [13.515965758160215]
本稿では,2つの gSCAN テスト分割に対して驚くほど優れた性能を示すモデルを提案する。
我々のモデルは、gSCANタスクを成功させるために、エージェントは(i)目標オブジェクトを(ii)正常にナビゲートする前に識別しなければならないという観察に基づいています。
2つの構成的タスクは、我々のアプローチでは自明に解決されるが、他のタスクは未解決のままである。
論文 参考訳(メタデータ) (2020-09-29T12:27:12Z) - A Brief Survey and Comparative Study of Recent Development of Pronoun
Coreference Resolution [55.39835612617972]
PCR(Pronoun Coreference Resolution)は、プロノミナルな表現を、それらが参照するすべての言及に対して解決するタスクである。
1つの重要な自然言語理解(NLU)コンポーネントとして、代名詞分解は多くの下流タスクにおいて不可欠であり、既存のモデルでは依然として困難である。
我々は、現在のモデルが標準評価セットで優れたパフォーマンスを達成しているにもかかわらず、実際のアプリケーションで使用する準備ができていないことを示すために、広範な実験を行っている。
論文 参考訳(メタデータ) (2020-09-27T01:40:01Z) - Systematic Generalization on gSCAN with Language Conditioned Embedding [19.39687991647301]
体系的一般化とは、学習アルゴリズムが学習した振る舞いを目に見えない状況に外挿する能力を指す。
本稿では,入力自然言語を条件とした動的メッセージパッシングによるオブジェクトの文脈的埋め込みを学習する手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T17:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。