論文の概要: COOL, a Context Outlooker, and its Application to Question Answering and
other Natural Language Processing Tasks
- arxiv url: http://arxiv.org/abs/2204.09593v1
- Date: Fri, 1 Apr 2022 07:03:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 16:11:02.463929
- Title: COOL, a Context Outlooker, and its Application to Question Answering and
other Natural Language Processing Tasks
- Title(参考訳): コンテキスト・スペクタcoolとその質問応答および他の自然言語処理タスクへの応用
- Authors: Fangyi Zhu, See-Kiong Ng, St\'ephane Bressan
- Abstract要約: 自然言語処理のための展望アテンションメカニズムであるCOOLを提示し,評価する。
COOLは、トランスフォーマーベースのモデルの自己注意層に加えて、ローカルの構文コンテキストをエンコードする注意層も追加します。
異なる変圧器ベースのアプローチによるCOOLの実装に対する比較実験による性能評価は、改善の機会を裏付けるものである。
- 参考スコア(独自算出の注目度): 2.4048245789542113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision outlookers improve the performance of vision transformers, which
implement a self-attention mechanism by adding outlook attention, a form of
local attention.
In natural language processing, as has been the case in computer vision and
other domains, transformer-based models constitute the state-of-the-art for
most processing tasks. In this domain, too, many authors have argued and
demonstrated the importance of local context.
We present and evaluate an outlook attention mechanism, COOL, for natural
language processing. COOL adds, on top of the self-attention layers of a
transformer-based model, outlook attention layers that encode local syntactic
context considering word proximity and consider more pair-wise constraints than
dynamic convolution operations used by existing approaches.
A comparative empirical performance evaluation of an implementation of COOL
with different transformer-based approaches confirms the opportunity of
improvement over a baseline using the neural language models alone for various
natural language processing tasks, including question answering. The proposed
approach is competitive with state-of-the-art methods.
- Abstract(参考訳): vision outlookersは、ローカル注意の形式であるoutlook attentionを追加することで、自己注意機構を実装するvision transformersの性能を向上させる。
自然言語処理では、コンピュータビジョンやその他の領域と同様に、トランスフォーマーベースのモデルは、ほとんどの処理タスクの最先端を構成する。
この領域では、多くの著者がローカルコンテキストの重要性を論じ、実証している。
自然言語処理のための展望アテンションメカニズムであるCOOLを提示し,評価する。
COOLはさらに、トランスフォーマーベースのモデルの自己注意層の上に、単語近接性を考慮した局所構文コンテキストを符号化し、既存のアプローチで使用される動的畳み込み操作よりもペアワイドな制約を考慮した注意層も追加する。
異なるトランスフォーマーベースのアプローチによるCOOLの実装の比較実験的な性能評価は、質問応答を含むさまざまな自然言語処理タスクに対して、ニューラルネットワークモデルのみを使用してベースラインよりも改善する機会を確認する。
提案手法は最先端の手法と競合する。
関連論文リスト
- A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning [53.35114015288077]
我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。
ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。
我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
論文 参考訳(メタデータ) (2024-02-22T11:21:54Z) - Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Demystify Self-Attention in Vision Transformers from a Semantic
Perspective: Analysis and Application [21.161850569358776]
自己認識機構はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。
多くの既存の視覚変換器(ViT)は、単に視覚タスクに適応するためにNLPから固有のトランスフォーマー設計を施している。
本稿では,低レベル表現を中間レベル空間にマッピングする典型的な画像処理手法を提案する。
論文 参考訳(メタデータ) (2022-11-13T15:18:31Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Improving Transformer-based Conversational ASR by Inter-Sentential
Attention Mechanism [20.782319059183173]
本稿では,会話音声認識のためのトランスフォーマーに基づくエンドツーエンドアーキテクチャにおいて,文間情報を明示的にモデル化することを提案する。
提案手法は,複数のオープンソースの対話コーパスに対して有効であり,提案手法は発話レベル変換器を用いたASRモデルから連続的に性能を向上する。
論文 参考訳(メタデータ) (2022-07-02T17:17:47Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。
本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-08-14T22:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。