論文の概要: Sorting through the noise: Testing robustness of information processing
in pre-trained language models
- arxiv url: http://arxiv.org/abs/2109.12393v1
- Date: Sat, 25 Sep 2021 16:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 15:38:29.202495
- Title: Sorting through the noise: Testing robustness of information processing
in pre-trained language models
- Title(参考訳): 雑音を通す:事前学習言語モデルにおける情報処理の堅牢性のテスト
- Authors: Lalchand Pandia and Allyson Ettinger
- Abstract要約: 本稿では,意図しないコンテンツに関連性のあるコンテキスト情報を配置するモデルの頑健さについて検討する。
モデルが従来の文脈から関連する事実を理解・適用するために単純な文脈に現れるが、注意散らしながら無関係なコンテンツの存在は、混乱したモデル予測に明らかな影響を与えている。
- 参考スコア(独自算出の注目度): 5.371816551086117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained LMs have shown impressive performance on downstream NLP tasks,
but we have yet to establish a clear understanding of their sophistication when
it comes to processing, retaining, and applying information presented in their
input. In this paper we tackle a component of this question by examining
robustness of models' ability to deploy relevant context information in the
face of distracting content. We present models with cloze tasks requiring use
of critical context information, and introduce distracting content to test how
robustly the models retain and use that critical information for prediction. We
also systematically manipulate the nature of these distractors, to shed light
on dynamics of models' use of contextual cues. We find that although models
appear in simple contexts to make predictions based on understanding and
applying relevant facts from prior context, the presence of distracting but
irrelevant content has clear impact in confusing model predictions. In
particular, models appear particularly susceptible to factors of semantic
similarity and word position. The findings are consistent with the conclusion
that LM predictions are driven in large part by superficial contextual cues,
rather than by robust representations of context meaning.
- Abstract(参考訳): 学習済みのlmsは下流のnlpタスクで印象的なパフォーマンスを示していますが、その処理や保持、入力に提示された情報の適用に関して、その洗練度を明確に理解していません。
本稿では,注意をそそるコンテンツに対して関連するコンテキスト情報を配置するモデルの頑健性を検討することで,この問題の構成要素に取り組む。
我々は,批判的コンテキスト情報を必要とするclozeタスクを持つモデルを示し,モデルがいかに強固に保持し,その重要な情報を予測に利用するかをテストするために,注意をそらすコンテンツを導入する。
モデルの文脈的手がかりの使用のダイナミクスに光を当てるために、これらの気晴らしの性質を体系的に操作します。
モデルが従来の文脈から関連する事実を理解・適用するために単純な文脈に現れるが、注意散らしながら無関係なコンテンツの存在は、混乱したモデル予測に明らかな影響を与える。
特に、モデルは意味的類似性と単語の位置の要因に特に影響を受けやすい。
これらの結果は,文脈意味のロバストな表現ではなく,表面的文脈的手がかりによってlm予測が駆動されるという結論と一致している。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Enhancing AI-based Generation of Software Exploits with Contextual Information [9.327315119028809]
この研究では、実際のシェルコードからなるデータセットを使用して、さまざまなシナリオでモデルを評価する。
実験は、不完全記述に対するモデルの弾力性、文脈を活用して精度を高める能力、無関係な情報を識別する能力を評価するように設計されている。
モデルは不要なコンテキストをフィルタリングし、攻撃的なセキュリティコードの生成において高いレベルの精度を維持する能力を示している。
論文 参考訳(メタデータ) (2024-08-05T11:52:34Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。
本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。
本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文 参考訳(メタデータ) (2020-05-27T15:06:35Z) - Explaining Black Box Predictions and Unveiling Data Artifacts through
Influence Functions [55.660255727031725]
影響関数は、影響力のあるトレーニング例を特定することによって、モデルの判断を説明する。
本稿では,代表課題における影響関数と共通単語順応法の比較を行う。
我々は,学習データ中の成果物を明らかにすることができる影響関数に基づく新しい尺度を開発した。
論文 参考訳(メタデータ) (2020-05-14T00:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。