論文の概要: Putting Context in Context: the Impact of Discussion Structure on Text
Classification
- arxiv url: http://arxiv.org/abs/2402.02975v1
- Date: Mon, 5 Feb 2024 12:56:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:08:21.052533
- Title: Putting Context in Context: the Impact of Discussion Structure on Text
Classification
- Title(参考訳): 文脈にコンテキストを置く: テキスト分類における議論構造の影響
- Authors: Nicol\`o Penzo, Antonio Longa, Bruno Lepri, Sara Tonelli, Marco
Guerini
- Abstract要約: 本稿では,英語における姿勢検出のための大規模データセットに関する一連の実験を提案する。
異なる種類の文脈情報の寄与を評価する。
構造情報はテキスト分類には非常に有用であるが,特定の状況下でのみ有用であることを示す。
- 参考スコア(独自算出の注目度): 13.15873889847739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text classification approaches usually focus on the content to be
classified. Contextual aspects (both linguistic and extra-linguistic) are
usually neglected, even in tasks based on online discussions. Still in many
cases the multi-party and multi-turn nature of the context from which these
elements are selected can be fruitfully exploited. In this work, we propose a
series of experiments on a large dataset for stance detection in English, in
which we evaluate the contribution of different types of contextual
information, i.e. linguistic, structural and temporal, by feeding them as
natural language input into a transformer-based model. We also experiment with
different amounts of training data and analyse the topology of local discussion
networks in a privacy-compliant way. Results show that structural information
can be highly beneficial to text classification but only under certain
circumstances (e.g. depending on the amount of training data and on discussion
chain complexity). Indeed, we show that contextual information on smaller
datasets from other classification tasks does not yield significant
improvements. Our framework, based on local discussion networks, allows the
integration of structural information, while minimising user profiling, thus
preserving their privacy.
- Abstract(参考訳): 現在のテキスト分類手法は通常、分類されるコンテンツに焦点を当てる。
文脈的側面(言語的側面と外言語的側面の両方)は通常、オンライン議論に基づくタスクでも無視される。
それでも多くの場合、これらの要素が選択されるコンテキストのマルチパーティとマルチターンの性質を実りよく利用することができる。
本研究では,様々な文脈情報(言語的,構造的,時間的)の寄与を,自然言語入力としてトランスフォーマモデルに入力することにより評価する,英語におけるスタンス検出のための大規模データセットに関する一連の実験を提案する。
また、異なる量のトレーニングデータを用いて、ローカルなディスカッションネットワークのトポロジをプライバシーに準拠した方法で分析する。
その結果、構造情報はテキスト分類に非常に有益であるが、特定の状況(例えば、トレーニングデータの量や議論連鎖の複雑さなど)でのみ有効であることが示された。
実際、他の分類タスクからの小さなデータセットの文脈情報は、大きな改善をもたらすものではない。
ローカルな議論ネットワークをベースとした我々のフレームワークは,ユーザのプロファイリングを最小限に抑えつつ,構造情報の統合を可能にする。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - An Information-Theoretic Approach to Analyze NLP Classification Tasks [3.273958158967657]
この研究は、テキスト分類タスクにおける入力の影響を分析するための情報理論フレームワークを提供する。
各テキスト要素には、関連する意味の意味と言語的実現の2つの要素がある。
フレームワークを紹介するために、マルチチョイス読解(MCRC)と感情分類(SC)が選択される。
論文 参考訳(メタデータ) (2024-02-01T19:49:44Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Idioms, Probing and Dangerous Things: Towards Structural Probing for
Idiomaticity in Vector Space [2.5288257442251107]
本研究の目的は, 埋め込まれた慣用的な情報がどのように構造的にコード化されているか, より深く知ることである。
静的 (GloVe) とコンテキスト埋め込み (BERT) の比較検討を行った。
実験の結果,慣用性がベクトルノルムに符号化されているかどうかの矛盾する証拠が得られた。
論文 参考訳(メタデータ) (2023-04-27T17:06:20Z) - Variational Cross-Graph Reasoning and Adaptive Structured Semantics
Learning for Compositional Temporal Grounding [143.5927158318524]
テンポラルグラウンドティング(Temporal grounding)とは、クエリ文に従って、未編集のビデオから特定のセグメントを特定するタスクである。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
ビデオや言語に内在する構造的意味論は、構成的一般化を実現する上で重要な要素である、と我々は主張する。
論文 参考訳(メタデータ) (2023-01-22T08:02:23Z) - Contextual information integration for stance detection via
cross-attention [59.662413798388485]
スタンス検出は、著者の目標に対する姿勢を特定することを扱う。
既存のスタンス検出モデルの多くは、関連するコンテキスト情報を考慮していないため、制限されている。
文脈情報をテキストとして統合する手法を提案する。
論文 参考訳(メタデータ) (2022-11-03T15:04:29Z) - A Knowledge-Enhanced Adversarial Model for Cross-lingual Structured
Sentiment Analysis [31.05169054736711]
言語間構造的感情分析タスクは、ソース言語からターゲット言語へ知識を伝達することを目的としている。
本稿では,暗黙的分散と明示的構造的知識を両立させた知識強化逆数モデル(textttKEAM)を提案する。
我々は5つのデータセットの実験を行い、textttKEAMと教師なしおよび教師なしの両方の手法を比較した。
論文 参考訳(メタデータ) (2022-05-31T03:07:51Z) - Open-set Text Recognition via Character-Context Decoupling [16.2819099852748]
オープンセットテキスト認識タスクは、評価中に新しい文字を認識する余分な能力を必要とする、新たな課題である。
現状の手法における限られた性能の大きな原因は,個々の文字の視覚的情報に対する文脈情報の相違である,と我々は主張する。
文脈情報と文字視覚情報を分離することでこの問題を軽減するために,文字コンテキスト分離フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-12T05:43:46Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Contextual Argument Component Classification for Class Discussions [1.0152838128195467]
議論要素を分類するための計算モデルに,局所的談話文脈と話者文脈という2種類の異なる文脈情報をどのように組み込むかを示す。
いずれのコンテキストタイプもパフォーマンスを改善することができるが、改善はコンテキストサイズと位置に依存している。
論文 参考訳(メタデータ) (2021-02-20T08:48:07Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。