論文の概要: Syntax-Guided Transformers: Elevating Compositional Generalization and
Grounding in Multimodal Environments
- arxiv url: http://arxiv.org/abs/2311.04364v1
- Date: Tue, 7 Nov 2023 21:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:43:54.973366
- Title: Syntax-Guided Transformers: Elevating Compositional Generalization and
Grounding in Multimodal Environments
- Title(参考訳): 構文誘導変換器:多モード環境における組成一般化とグラウンド化
- Authors: Danial Kamali and Parisa Kordjamshidi
- Abstract要約: 我々は、構成一般化を促進するために、言語の構文構造を利用する。
マルチモーダルグラウンドリング問題における構文情報の利用のメリットを紹介し,評価する。
その結果、マルチモーダルグラウンドリングとパラメータ効率のモデリングにおいて、最先端の技術を推し進めることができた。
- 参考スコア(独自算出の注目度): 20.70294450587676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compositional generalization, the ability of intelligent models to
extrapolate understanding of components to novel compositions, is a fundamental
yet challenging facet in AI research, especially within multimodal
environments. In this work, we address this challenge by exploiting the
syntactic structure of language to boost compositional generalization. This
paper elevates the importance of syntactic grounding, particularly through
attention masking techniques derived from text input parsing. We introduce and
evaluate the merits of using syntactic information in the multimodal grounding
problem. Our results on grounded compositional generalization underscore the
positive impact of dependency parsing across diverse tasks when utilized with
Weight Sharing across the Transformer encoder. The results push the
state-of-the-art in multimodal grounding and parameter-efficient modeling and
provide insights for future research.
- Abstract(参考訳): 構成の一般化、コンポーネントの理解を新しい構成に外挿するインテリジェントモデルの能力は、AI研究において、特にマルチモーダル環境において、根本的なが挑戦的な側面である。
本研究では,合成一般化を促進するために,言語の構文構造を活用することで,この問題に対処する。
本稿では,特にテキスト入力解析に基づく注意マスキング技術を用いて,構文的接地の重要性を高める。
マルチモーダルグラウンドリング問題における構文情報の利用のメリットを紹介し,評価する。
本研究は,トランスフォーマーエンコーダにおける重み共有を応用した場合の,多種多様なタスクに対する依存性解析の正の影響を明らかにするものである。
その結果、マルチモーダルグラウンドとパラメータ効率の良いモデリングの最先端が押し出され、今後の研究への洞察が得られます。
関連論文リスト
- Analysis of the Evolution of Advanced Transformer-Based Language Models:
Experiments on Opinion Mining [0.5735035463793008]
本稿では,最先端のトランスフォーマーに基づく言語モデルの意見マイニングにおける挙動について検討する。
私たちの比較研究は、フォーカスするアプローチに関して、プロダクションエンジニアがリードし、道を開く方法を示しています。
論文 参考訳(メタデータ) (2023-08-07T01:10:50Z) - On Evaluating Multilingual Compositional Generalization with Translated
Datasets [34.51457321680049]
構成一般化能力は言語によって異なることを示す。
我々は、MCWQデータセットを英語から中国語、日本語に忠実に翻訳する。
MCWQ-Rとよばれるロバストなベンチマークが得られたとしても、構成の分布は言語的な相違によって依然として苦しんでいることが示される。
論文 参考訳(メタデータ) (2023-06-20T10:03:57Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Transition-based Abstract Meaning Representation Parsing with Contextual
Embeddings [0.0]
本研究では,意味解析のタスクにおいて,言語モデルと記号意味論の定式化という,言語の意味への最も成功したルートを2つ組み合わせる手法について検討する。
本稿では,事前学習した文脈認識単語の埋め込み(BERTやRoBERTaなど)を解析問題に組み込むことの有用性について検討する。
論文 参考訳(メタデータ) (2022-06-13T15:05:24Z) - Disentangled Sequence to Sequence Learning for Compositional
Generalization [62.954842223732435]
本稿では,ソース入力を適応的に再符号化することで,不整合表現の学習を可能にするシーケンス・ツー・シーケンス・モデルの拡張を提案する。
意味解析と機械翻訳の実験結果から,提案手法はより不整合な表現とより優れた一般化をもたらすことが示された。
論文 参考訳(メタデータ) (2021-10-09T22:27:19Z) - Improving Compositional Generalization in Semantic Parsing [54.4720965813889]
オフ・オブ・ディストリビューション(OOD)データへのモデルの一般化は、最近、大きな注目を集めている。
合成一般化のための自然なテストベッドである意味解析における合成一般化について検討する。
論文 参考訳(メタデータ) (2020-10-12T12:34:58Z) - MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination [96.91091607251526]
本稿では, 人的部分に基づく識別器と自己対応型識別器を併用した多点識別拡張生成適応ネットワークを提案する。
HPDモジュールには、多彩な外観と鮮明な詳細を強制するために、きめ細かい単語レベルの注意機構が採用されている。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
論文 参考訳(メタデータ) (2020-10-02T12:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。