論文の概要: The BLA Benchmark: Investigating Basic Language Abilities of Pre-Trained
Multimodal Models
- arxiv url: http://arxiv.org/abs/2310.15061v1
- Date: Mon, 23 Oct 2023 16:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:58:48.931074
- Title: The BLA Benchmark: Investigating Basic Language Abilities of Pre-Trained
Multimodal Models
- Title(参考訳): BLAベンチマーク:事前学習型マルチモーダルモデルの基本言語能力の検討
- Authors: Xinyi Chen, Raquel Fern\'andez, Sandro Pezzelle
- Abstract要約: 本稿では,基本言語能力のマルチモーダルモデルを評価するための,新しいベンチマークBLAを提案する。
CLIP, ViLBERT, BLIP2などのトランスフォーマーベースのシステムでは, 一般的にゼロショット環境ではBLAと競合する。
これにより、BLAを評価ベンチマークとして使用するだけでなく、モデルの基本言語能力を改善するための扉を開くことができる。
- 参考スコア(独自算出の注目度): 7.043786774831232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive performance achieved by pre-trained
language-and-vision models in downstream tasks, it remains an open question
whether this reflects a proper understanding of image-text interaction. In this
work, we explore to what extent they handle basic linguistic constructions --
active-passive voice, coordination, and relative clauses -- that even preschool
children can typically master. We present BLA, a novel, automatically
constructed benchmark to evaluate multimodal models on these Basic Language
Abilities. We show that different types of Transformer-based systems, such as
CLIP, ViLBERT, and BLIP2, generally struggle with BLA in a zero-shot setting,
in line with previous findings. Our experiments, in particular, show that most
of the tested models only marginally benefit when fine-tuned or prompted with
construction-specific samples. Yet, the generative BLIP2 shows promising
trends, especially in an in-context learning setting. This opens the door to
using BLA not only as an evaluation benchmark but also to improve models' basic
language abilities.
- Abstract(参考訳): 下流タスクにおける事前訓練された言語とビジョンのモデルによって達成された印象的なパフォーマンスにもかかわらず、これが画像とテキストの相互作用の適切な理解を反映しているかどうかには疑問が残る。
本研究では,幼児でも普通に習得できる基本言語構造(能動的受動音声,コーディネート,相対的節)をどのように扱うかを検討する。
本稿では,これらの基本言語能力に関するマルチモーダルモデルを評価するための,新しいベンチマークBLAを提案する。
CLIP, ViLBERT, BLIP2などのトランスフォーマーベースのシステムでは, ゼロショット環境でBLAと競合することが多い。
特に我々の実験では、テストされたモデルのほとんどは、微調整されたり、建設固有のサンプルでトリガーされた場合にしか利益が得られなかった。
しかし、生成BLIP2は、特にコンテキスト内学習環境で、有望な傾向を示す。
これにより、BLAを評価ベンチマークとして使用するだけでなく、モデルの基本言語能力を改善するための扉を開くことができる。
関連論文リスト
- Exploring the Learning Capabilities of Language Models using LEVERWORLDS [23.40759867281453]
設定のモデルを学ぶには、一般的な構造ルールとインスタンスの特定の特性の両方を学ぶ必要がある。
本稿では,様々な学習方法における一般学習と特定学習の相互作用について,サンプル効率に着目して検討する。
論文 参考訳(メタデータ) (2024-10-01T09:02:13Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Assessing Linguistic Generalisation in Language Models: A Dataset for
Brazilian Portuguese [4.941630596191806]
ブラジルポルトガル語で開発されたモデルで符号化された言語情報を検査する本質的な評価課題を提案する。
これらのタスクは、異なる言語モデルが文法構造やマルチワード表現に関連する情報を一般化する方法を評価するために設計されている。
論文 参考訳(メタデータ) (2023-05-23T13:49:14Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Imputing Out-of-Vocabulary Embeddings with LOVE Makes Language Models
Robust with Little Cost [5.672132510411465]
最先端のNLPシステムは、単語埋め込みを伴う入力を表すが、外語彙の単語に直面すると、これらは不安定である。
我々は,単語の表面形のみを用いて事前学習した埋め込みの挙動を学習することにより,未知語に対するベクトルを生成するための模倣様モデルの原理に従う。
本稿では,既存の事前学習型言語モデル(BERTなど)の単語表現を拡張したシンプルなコントラスト学習フレームワークLOVEを提案する。
論文 参考訳(メタデータ) (2022-03-15T13:11:07Z) - Interpreting Language Models Through Knowledge Graph Extraction [42.97929497661778]
BERTに基づく言語モデルを,学習過程の逐次的な段階において取得した知識のスナップショットを通じて比較する。
本稿では, クローズイン・ザ・ブランク文から知識グラフを抽出し, 知識獲得のタイムラインを提示する手法を提案する。
この分析を, BERTモデル(DistilBERT, BERT-base, RoBERTa)の事前学習変化の比較に拡張する。
論文 参考訳(メタデータ) (2021-11-16T15:18:01Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - HerBERT: Efficiently Pretrained Transformer-based Language Model for
Polish [4.473327661758546]
本論文では,ポーランド語に焦点をあてた最初のアブレーション研究について述べる。
多言語モデルから単言語モデルへの知識伝達の事前学習手順を設計・評価します。
提案された手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTが訓練される。
論文 参考訳(メタデータ) (2021-05-04T20:16:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。