論文の概要: COOL, a Context Outlooker, and its Application to Question Answering and
other Natural Language Processing Tasks
- arxiv url: http://arxiv.org/abs/2204.09593v2
- Date: Mon, 15 May 2023 15:42:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 01:20:26.658879
- Title: COOL, a Context Outlooker, and its Application to Question Answering and
other Natural Language Processing Tasks
- Title(参考訳): コンテキスト・スペクタcoolとその質問応答および他の自然言語処理タスクへの応用
- Authors: Fangyi Zhu, See-Kiong Ng, St\'ephane Bressan
- Abstract要約: ビジョン・オブザーバは視覚変換器の性能を向上し、アウトルック・アテンションを追加することで自己注意機構を実装している。
自然言語処理のための展望アテンションメカニズムであるCOOLを提案する。
- 参考スコア(独自算出の注目度): 2.4048245789542113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision outlooker improves the performance of vision transformers, which
implements a self-attention mechanism by adding an outlook attention, a form of
local attention.
In natural language processing, as has been the case in computer vision and
other domains, transformer-based models constitute the state-of-the-art for
most processing tasks. In this domain, too, many authors have argued and
demonstrated the importance of local context.
We present an outlook attention mechanism, COOL, for natural language
processing. COOL, added on top of the self-attention layers of a
transformer-based model, encodes local syntactic context considering word
proximity and more pair-wise constraints than dynamic convolution used by
existing approaches.
A comparative empirical performance evaluation of an implementation of COOL
with different transformer-based models confirms the opportunity for
improvement over a baseline using the original models alone for various natural
language processing tasks, including question answering. The proposed approach
achieves competitive performance with existing state-of-the-art methods on some
tasks.
- Abstract(参考訳): vision outlookerは、ローカル注意の形式であるoutlook attentionを追加することで、自己照準機構を実装するvision transformersの性能を向上させる。
自然言語処理では、コンピュータビジョンやその他の領域と同様に、トランスフォーマーベースのモデルは、ほとんどの処理タスクの最先端を構成する。
この領域では、多くの著者がローカルコンテキストの重要性を論じ、実証している。
本稿では,自然言語処理のためのoutlook attentionメカニズムを提案する。
COOLは、トランスフォーマーベースモデルの自己注意層の上に付加され、既存のアプローチで使用される動的畳み込みよりも単語近接性やペアワイド制約を考慮した局所構文コンテキストを符号化する。
異なる変換器モデルを用いたCOOLの実装に対する比較実験による性能評価は、質問応答を含む様々な自然言語処理タスクにおいて、原モデルのみを用いてベースラインよりも改善する機会を確認する。
提案手法は,既存の最先端手法との競合性能を実現する。
関連論文リスト
- A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning [53.35114015288077]
我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。
ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。
我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
論文 参考訳(メタデータ) (2024-02-22T11:21:54Z) - Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - Demystify Self-Attention in Vision Transformers from a Semantic
Perspective: Analysis and Application [21.161850569358776]
自己認識機構はコンピュータビジョンや自然言語処理など多くの分野で大きな成功を収めている。
多くの既存の視覚変換器(ViT)は、単に視覚タスクに適応するためにNLPから固有のトランスフォーマー設計を施している。
本稿では,低レベル表現を中間レベル空間にマッピングする典型的な画像処理手法を提案する。
論文 参考訳(メタデータ) (2022-11-13T15:18:31Z) - Learning Semantic Textual Similarity via Topic-informed Discrete Latent
Variables [17.57873577962635]
我々は、意味的テキスト類似性のためのトピックインフォームド離散潜在変数モデルを開発した。
我々のモデルはベクトル量子化による文対表現のための共有潜在空間を学習する。
我々のモデルは意味的テキスト類似性タスクにおいて、いくつかの強力な神経ベースラインを超えることができることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:09:58Z) - Improving Transformer-based Conversational ASR by Inter-Sentential
Attention Mechanism [20.782319059183173]
本稿では,会話音声認識のためのトランスフォーマーに基づくエンドツーエンドアーキテクチャにおいて,文間情報を明示的にモデル化することを提案する。
提案手法は,複数のオープンソースの対話コーパスに対して有効であり,提案手法は発話レベル変換器を用いたASRモデルから連続的に性能を向上する。
論文 参考訳(メタデータ) (2022-07-02T17:17:47Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - Weakly supervised cross-domain alignment with optimal transport [102.8572398001639]
画像オブジェクトとテキストシーケンス間のクロスドメインアライメントは多くの視覚言語タスクの鍵となる。
本稿では,画像とテキスト間の微粒な意味的類似点の同定と最適化のための新しいアプローチについて検討する。
論文 参考訳(メタデータ) (2020-08-14T22:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。