論文の概要: Thesis proposal: Are We Losing Textual Diversity to Natural Language Processing?
- arxiv url: http://arxiv.org/abs/2409.09568v1
- Date: Sun, 15 Sep 2024 01:06:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:17:37.527802
- Title: Thesis proposal: Are We Losing Textual Diversity to Natural Language Processing?
- Title(参考訳): 論文提案:テキストの多様性を自然言語処理に失うか?
- Authors: Josef Jon,
- Abstract要約: ニューラルネットワーク翻訳で使用されるアルゴリズムは、ほとんどの入力タイプに有益であるが、非典型的テキストの処理に有害な帰納的バイアスを持つかどうかを問う。
我々は,NMTシステムがこのようなテキストの多様性を維持するのに苦戦しているかどうかを調べるために,一連の実験を行った。
我々の最終的な目標は、出力の統計特性の分布に一様性を課さない代替手段を開発することである。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This thesis argues that the currently widely used Natural Language Processing algorithms possibly have various limitations related to the properties of the texts they handle and produce. With the wide adoption of these tools in rapid progress, we must ask what these limitations are and what are the possible implications of integrating such tools even more deeply into our daily lives. As a testbed, we have chosen the task of Neural Machine Translation (NMT). Nevertheless, we aim for general insights and outcomes, applicable even to current Large Language Models (LLMs). We ask whether the algorithms used in NMT have inherent inductive biases that are beneficial for most types of inputs but might harm the processing of untypical texts. To explore this hypothesis, we define a set of measures to quantify text diversity based on its statistical properties, like uniformity or rhythmicity of word-level surprisal, on multiple scales (sentence, discourse, language). We then conduct a series of experiments to investigate whether NMT systems struggle with maintaining the diversity of such texts, potentially reducing the richness of the language generated by these systems, compared to human translators. We search for potential causes of these limitations rooted in training objectives and decoding algorithms. Our ultimate goal is to develop alternatives that do not enforce uniformity in the distribution of statistical properties in the output and that allow for better global planning of the translation, taking into account the intrinsic ambiguity of the translation task.
- Abstract(参考訳): この論文は、現在広く使われている自然言語処理アルゴリズムは、それらが処理し、生成するテキストの性質に関する様々な制限があると主張している。
これらのツールが急速に普及していく中で、これらの制限が何であるか、そしてそのようなツールを私たちの日常生活に深く組み込むことがどのような意味を持つのかを問う必要がある。
テストベッドとして、ニューラルネットワーク翻訳(NMT)のタスクを選択しました。
それにもかかわらず、我々は現在のLarge Language Models (LLMs)にも適用可能な、一般的な洞察と成果を目指しています。
NMTで使用されるアルゴリズムは、ほとんどの入力に対して有益であるが、非典型的テキストの処理に有害な帰納的バイアスを持つかどうかを問う。
この仮説を探索するために、複数の尺度(文、談話、言語)で、単語レベルの仮定の均一性やリズム性など、その統計的性質に基づいて、テキストの多様性を定量化する一連の尺度を定義した。
そこで我々は,NMTシステムがこのようなテキストの多様性を維持するのに苦戦しているかどうかを調査するために,一連の実験を行い,人間の翻訳者と比較して,これらのシステムによって生成された言語の豊かさを減少させる可能性がある。
学習目的と復号アルゴリズムに根ざしたこれらの制限の潜在的な原因を探索する。
我々の最終的な目標は、出力の統計特性の分布に一様性を持たず、翻訳タスクの本質的なあいまいさを考慮して、翻訳のグローバルな計画を改善する手段を開発することである。
関連論文リスト
- On Uncertainty In Natural Language Processing [2.5076643086429993]
この論文は、自然言語処理における不確実性が言語的、統計的、神経的な観点からどのように特徴づけられるかを研究する。
本研究では,非交換不能な共形予測に基づく自然言語生成における校正サンプリング手法を提案する。
最後に,補助予測器を用いた大規模ブラックボックス言語モデルの信頼性の定量化手法を開発した。
論文 参考訳(メタデータ) (2024-10-04T14:08:02Z) - Beyond Turing: A Comparative Analysis of Approaches for Detecting Machine-Generated Text [1.919654267936118]
従来の浅層学習,言語モデル(LM)微調整,多言語モデル微調整の評価を行った。
結果は、メソッド間でのパフォーマンスにかなりの違いが示される。
この研究は、堅牢で差別性の高いモデルを作成することを目的とした将来の研究の道を開くものである。
論文 参考訳(メタデータ) (2023-11-21T06:23:38Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Why is constrained neural language generation particularly challenging? [13.62873478165553]
本稿では、制約付きニューラルネットワーク生成の新たな話題について広範な調査を行う。
我々は条件と制約を区別し、制約付きテキスト生成タスクを提示し、制約付きテキスト生成のための既存の方法と評価指標をレビューする。
我々の目標は、この新興分野の最近の進歩とトレンドを強調し、最も有望な方向性と、制約のあるニューラルネットワーク生成研究の最先端への限界を知らせることである。
論文 参考訳(メタデータ) (2022-06-11T02:07:33Z) - Exploring Dimensionality Reduction Techniques in Multilingual
Transformers [64.78260098263489]
本稿では,多言語シームス変圧器の性能に及ぼす次元還元法の影響を包括的に考察する。
これは、それぞれ91.58% pm 2.59%$と54.65% pm 32.20%$の次元を平均で減少させることが可能であることを示している。
論文 参考訳(メタデータ) (2022-04-18T17:20:55Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Informed Sampling for Diversity in Concept-to-Text NLG [8.883733362171034]
本稿では,言語生成モデルが確実に生成できる多様性のレベルを探索するために,Imitation Learningアプローチを提案する。
具体的には、任意のタイミングでどの単語が高品質な出力につながるかを識別するように訓練されたメタ分類器を用いて復号処理を強化する。
論文 参考訳(メタデータ) (2020-04-29T17:43:24Z) - On the Integration of LinguisticFeatures into Statistical and Neural
Machine Translation [2.132096006921048]
機械翻訳に対する統計的アプローチの強みと人間の翻訳方法の相違について検討する。
自動翻訳システムがより正確な翻訳を行うために欠落している言語情報を同定する。
我々は、過一般化または「アルゴミックバイアス」をニューラルMTの潜在的な欠点として認識し、残りの言語問題の多くにリンクする。
論文 参考訳(メタデータ) (2020-03-31T16:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。