論文の概要: An Information-Theoretic Approach to Analyze NLP Classification Tasks
- arxiv url: http://arxiv.org/abs/2402.00978v1
- Date: Thu, 1 Feb 2024 19:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 17:52:00.840856
- Title: An Information-Theoretic Approach to Analyze NLP Classification Tasks
- Title(参考訳): 情報理論によるNLP分類タスクの解析
- Authors: Luran Wang, Mark Gales, Vatsal Raina
- Abstract要約: この研究は、テキスト分類タスクにおける入力の影響を分析するための情報理論フレームワークを提供する。
各テキスト要素には、関連する意味の意味と言語的実現の2つの要素がある。
フレームワークを紹介するために、マルチチョイス読解(MCRC)と感情分類(SC)が選択される。
- 参考スコア(独自算出の注目度): 3.273958158967657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the importance of the inputs on the output is useful across
many tasks. This work provides an information-theoretic framework to analyse
the influence of inputs for text classification tasks. Natural language
processing (NLP) tasks take either a single element input or multiple element
inputs to predict an output variable, where an element is a block of text. Each
text element has two components: an associated semantic meaning and a
linguistic realization. Multiple-choice reading comprehension (MCRC) and
sentiment classification (SC) are selected to showcase the framework. For MCRC,
it is found that the context influence on the output compared to the question
influence reduces on more challenging datasets. In particular, more challenging
contexts allow a greater variation in complexity of questions. Hence, test
creators need to carefully consider the choice of the context when designing
multiple-choice questions for assessment. For SC, it is found the semantic
meaning of the input text dominates (above 80\% for all datasets considered)
compared to its linguistic realisation when determining the sentiment. The
framework is made available at:
https://github.com/WangLuran/nlp-element-influence
- Abstract(参考訳): 出力に対する入力の重要性を理解することは、多くのタスクで役立ちます。
この研究は、テキスト分類タスクにおける入力の影響を分析するための情報理論フレームワークを提供する。
自然言語処理(nlp)タスクは、要素がテキストブロックである出力変数を予測するために、単一の要素入力または複数の要素入力のいずれかを取る。
各テキスト要素には、関連する意味の意味と言語的実現の2つの要素がある。
フレームワークを紹介するために、マルチ選択読解(MCRC)と感情分類(SC)が選択される。
MCRCでは,質問に対する文脈の影響が,より困難なデータセットに還元されることが判明した。
特に、より困難な文脈では、質問の複雑さがより多様になる。
したがって、テスト担当者は、評価のために複数の選択肢の質問を設計する際のコンテキストの選択を慎重に検討する必要がある。
SCでは、入力されたテキストの意味が、感情を決定する際の言語的実現と比較して、支配的(考慮されるすべてのデータセットの80%以上)であることがわかった。
フレームワークは、https://github.com/WangLuran/nlp-element-influenceで利用可能である。
関連論文リスト
- Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。
NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。
本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-22T17:55:07Z) - Interpreting Themes from Educational Stories [9.608135094187912]
本稿では,教育物語の解釈的理解に特化して設計された最初のデータセットを紹介する。
データセットはさまざまなジャンルや文化的な起源にまたがっており、人間に注釈を付けたテーマキーワードを含んでいる。
我々は、物語の主観に向けて解釈的理解の異なる抽象概念の下でNLPタスクを定式化する。
論文 参考訳(メタデータ) (2024-04-08T07:26:27Z) - Putting Context in Context: the Impact of Discussion Structure on Text
Classification [13.15873889847739]
本稿では,英語における姿勢検出のための大規模データセットに関する一連の実験を提案する。
異なる種類の文脈情報の寄与を評価する。
構造情報はテキスト分類には非常に有用であるが,特定の状況下でのみ有用であることを示す。
論文 参考訳(メタデータ) (2024-02-05T12:56:22Z) - Explaining Interactions Between Text Spans [50.70253702800355]
入力の異なる部分からのトークンのスパンに対する推論は、自然言語理解に不可欠である。
NLUタスク2つのタスク(NLIとFC)に対する人間間相互作用の説明データセットであるSpanExを紹介する。
次に,複数の微調整された大言語モデルの決定過程を,スパン間の相互接続の観点から検討する。
論文 参考訳(メタデータ) (2023-10-20T13:52:37Z) - X-PARADE: Cross-Lingual Textual Entailment and Information Divergence across Paragraphs [55.80189506270598]
X-PARADEは、段落レベルの情報の分岐の最初の言語間データセットである。
アノテーションは、対象言語における段落をスパンレベルでラベル付けし、ソース言語における対応する段落に対して評価する。
アライメントされた段落は、異なる言語のウィキペディアページから引用される。
論文 参考訳(メタデータ) (2023-09-16T04:34:55Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Topic Segmentation Model Focusing on Local Context [1.9871897882042773]
本稿では,2つの入力文を個別に処理し,適切な量の情報を得るためのシマセ文埋め込み層を提案する。
また、同じトピック予測(STP)、トピック分類(TC)、Next Sentence Prediction(NSP)といったマルチタスク学習手法も採用している。
論文 参考訳(メタデータ) (2023-01-05T06:57:42Z) - DEIM: An effective deep encoding and interaction model for sentence
matching [0.0]
本稿では,ディープエンコーディングとインタラクションに基づく文マッチング手法を提案する。
エンコーダ層では、1つの文を符号化する過程で他の文の情報を参照し、その後、アルゴリズムを用いて情報を融合する。
インタラクション層では、双方向の注意機構と自己注意機構を用いて深い意味情報を得る。
論文 参考訳(メタデータ) (2022-03-20T07:59:42Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Knowledgeable Dialogue Reading Comprehension on Key Turns [84.1784903043884]
MRC(Multi-choice Machine reading comprehension)は、ある項目と質問に対する候補オプションから正しい回答を選択するモデルである。
本研究は,複数回対話を行う対話型MRCに焦点を当てている。
それは2つの課題に悩まされ、答えの選択決定は、最近役に立つコモンセンスをサポートせずに行われ、マルチターンコンテキストは、かなりの無関係な情報を隠蔽する可能性がある。
論文 参考訳(メタデータ) (2020-04-29T07:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。