論文の概要: Revisiting Noise in Natural Language Processing for Computational Social Science
- arxiv url: http://arxiv.org/abs/2503.07395v1
- Date: Mon, 10 Mar 2025 14:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:49.363150
- Title: Revisiting Noise in Natural Language Processing for Computational Social Science
- Title(参考訳): 計算社会科学のための自然言語処理における雑音の再検討
- Authors: Nadav Borenstein,
- Abstract要約: この論文は、計算社会科学におけるノイズは本質的に有害か役に立たないという概念に挑戦する。
むしろ、ある種のノイズは、CSS研究を進める上で貴重な有意義な情報をエンコードできると主張している。
- 参考スコア(独自算出の注目度): 5.620321106679634
- License:
- Abstract: Computational Social Science (CSS) is an emerging field driven by the unprecedented availability of human-generated content for researchers. This field, however, presents a unique set of challenges due to the nature of the theories and datasets it explores, including highly subjective tasks and complex, unstructured textual corpora. Among these challenges, one of the less well-studied topics is the pervasive presence of noise. This thesis aims to address this gap in the literature by presenting a series of interconnected case studies that examine different manifestations of noise in CSS. These include character-level errors following the OCR processing of historical records, archaic language, inconsistencies in annotations for subjective and ambiguous tasks, and even noise and biases introduced by large language models during content generation. This thesis challenges the conventional notion that noise in CSS is inherently harmful or useless. Rather, it argues that certain forms of noise can encode meaningful information that is invaluable for advancing CSS research, such as the unique communication styles of individuals or the culture-dependent nature of datasets and tasks. Further, this thesis highlights the importance of nuance in dealing with noise and the considerations CSS researchers must address when encountering it, demonstrating that different types of noise require distinct strategies.
- Abstract(参考訳): 計算社会科学(英: Computational Social Science, CSS)は、人類が生み出すコンテンツを研究者に提供し、先例のない発展を遂げた分野である。
しかし、この分野は、非常に主観的なタスクや複雑で非構造的なテキストコーパスを含む、それらが探求する理論やデータセットの性質によって、固有の課題の集合を提示している。
これらの課題の中で、十分に研究されていないトピックの1つは、騒音の存在である。
この論文は、CSSの異なるノイズの現示を調べる一連の相互接続されたケーススタディを提示することで、文学におけるこのギャップに対処することを目的としている。
これには、歴史的記録のOCR処理に続く文字レベルのエラー、古来の言語、主観的および曖昧なタスクに対するアノテーションの不整合、そしてコンテンツ生成中に大きな言語モデルによって導入されたノイズやバイアスが含まれる。
この論文は、CSSのノイズは本質的に有害か役に立たないという従来の概念に挑戦する。
むしろ、ある種のノイズは、個人のユニークなコミュニケーションスタイルやデータセットやタスクの文化に依存した性質など、CSS研究を進める上で価値のある有意義な情報をエンコードすることができる、と論じている。
さらに、この論文はノイズを扱う上でのニュアンスの重要性と、CSS研究者がそれに遭遇する際に対処すべき考慮事項を強調し、異なるタイプのノイズが異なる戦略を必要とすることを示した。
関連論文リスト
- Measuring the Effect of Transcription Noise on Downstream Language Understanding Tasks [9.284905374340804]
本稿では,様々な雑音環境下でタスクモデルを評価するためのフレームワークを提案する。
タスクモデルは特定のレベルのノイズを許容でき、スクリプタ内のエラーの種類によって異なる影響を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-19T11:37:59Z) - Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Transcending the Attention Paradigm: Representation Learning from
Geospatial Social Media Data [1.8311821879979955]
本研究では,分散パターンの源泉としてソーシャルメディアデータを調べることで,パフォーマンスベンチマークのパラダイムに挑戦する。
これらの抽象的関係を適切に表現するために、この研究では、経験的ソーシャルメディアコーパスを要素成分に分解し、人口密度の場所をまたいだ20億以上のツイートを分析した。
論文 参考訳(メタデータ) (2023-10-09T03:27:05Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - How to Enhance Causal Discrimination of Utterances: A Case on Affective
Reasoning [22.11437627661179]
本稿では,会話プロセスにテクスティ.i.d.ノイズ項を組み込むことにより,構造因果モデル(SCM)を構築することを提案する。
ディープラーニングの実装を容易にするため,非構造化会話データを扱うためのcognフレームワークを導入し,非可観測ノイズを学習可能な「単純な原因」とみなすオートエンコーダアーキテクチャを採用した。
論文 参考訳(メタデータ) (2023-05-04T07:45:49Z) - Coherence and Diversity through Noise: Self-Supervised Paraphrase
Generation via Structure-Aware Denoising [5.682665111938764]
制御ノイズ注入によるパラフレーズ処理のための教師なしフレームワークであるSCANINGを提案する。
本稿では,オンライン教育に実践的な応用を持つ代数的単語問題を言い換える新しい課題に焦点をあてる。
我々はSCANingが意味保存と多種多様なパラフレーズの生成の両方の観点から性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2023-02-06T13:50:57Z) - Sources of Noise in Dialogue and How to Deal with Them [63.02707014103651]
トレーニング対話システムは、ノイズの多いトレーニング例や予期しないユーザ入力を扱うことが多い。
その頻度にもかかわらず、現在、対話ノイズの正確な調査が欠けている。
本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。
論文 参考訳(メタデータ) (2022-12-06T04:36:32Z) - Learning with Group Noise [106.56780716961732]
グループノイズを用いた学習のための新しいマックスマッチング手法を提案する。
いくつかの学習パラダイムの領域における実世界のデータセットのレンジのパフォーマンスは、Max-Matchingの有効性を示している。
論文 参考訳(メタデータ) (2021-03-17T06:57:10Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。