論文の概要: The boundaries of meaning: a case study in neural machine translation
- arxiv url: http://arxiv.org/abs/2210.00613v1
- Date: Sun, 2 Oct 2022 20:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:29:05.469423
- Title: The boundaries of meaning: a case study in neural machine translation
- Title(参考訳): 意味の境界 : ニューラルマシン翻訳における事例研究
- Authors: Yuri Balashov
- Abstract要約: 2016年以降、サブワードセグメンテーションアルゴリズムは言語モデリング、機械翻訳、その他のタスクに広く利用されている。
これらのアルゴリズムは、しばしば単語を「時代」、「on」、「t」、「ist」といった意味的に不透明なものに切り分ける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The success of deep learning in natural language processing raises intriguing
questions about the nature of linguistic meaning and ways in which it can be
processed by natural and artificial systems. One such question has to do with
subword segmentation algorithms widely employed in language modeling, machine
translation, and other tasks since 2016. These algorithms often cut words into
semantically opaque pieces, such as 'period', 'on', 't', and 'ist' in
'period|on|t|ist'. The system then represents the resulting segments in a dense
vector space, which is expected to model grammatical relations among them. This
representation may in turn be used to map 'period|on|t|ist' (English) to
'par|od|ont|iste' (French). Thus, instead of being modeled at the lexical
level, translation is reformulated more generally as the task of learning the
best bilingual mapping between the sequences of subword segments of two
languages; and sometimes even between pure character sequences:
'p|e|r|i|o|d|o|n|t|i|s|t' $\rightarrow$ 'p|a|r|o|d|o|n|t|i|s|t|e'. Such subword
segmentations and alignments are at work in highly efficient end-to-end machine
translation systems, despite their allegedly opaque nature. The computational
value of such processes is unquestionable. But do they have any linguistic or
philosophical plausibility? I attempt to cast light on this question by
reviewing the relevant details of the subword segmentation algorithms and by
relating them to important philosophical and linguistic debates, in the spirit
of making artificial intelligence more transparent and explainable.
- Abstract(参考訳): 自然言語処理におけるディープラーニングの成功は、言語的意味の性質や、自然言語や人工システムによって処理できる方法に関する興味深い疑問を提起する。
そのような質問のひとつは、2016年以来、言語モデリング、機械翻訳、その他のタスクに広く使われているサブワードセグメンテーションアルゴリズムである。
これらのアルゴリズムは、しばしば「周期|on|t|ist」で「周期」「オン」「t」「イスト」といった意味的に不透明な部分に分割する。
この系は、それらの間の文法的関係をモデル化することが期待される密度ベクトル空間における結果のセグメントを表す。
この表現は' period|on|t|ist' (英語) を 'par|od|ont|iste' (フランス語) にマッピングするのに使われる。
したがって、語彙レベルでモデル化される代わりに、翻訳はより一般的に、2つの言語のサブワードセグメントの列の間の最良のバイリンガルマッピングを学ぶタスクとして再編成される。
このようなサブワードのセグメンテーションとアライメントは、その不透明な性質にもかかわらず、非常に効率的なエンドツーエンド機械翻訳システムで動作している。
そのようなプロセスの計算値は不必要である。
しかし、それらには言語的あるいは哲学的な可能性がありますか?
私は、サブワードセグメンテーションアルゴリズムの関連する詳細をレビューし、それらを重要な哲学的および言語的議論に関連付けることで、人工知能をより透明かつ説明しやすいものにするため、この問題に光を当てようとしている。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Word class representations spontaneously emerge in a deep neural network
trained on next word prediction [7.240611820374677]
人間はどのように言語を学ぶのか、そして、最初の言語は全く学べるのか?
これらの基本的な疑問はいまだに熱心に議論されている。
特に、次の単語を予測するために、人工的な深層ニューラルネットワークを訓練する。
その結果,9ワード入力シーケンスの内部表現は10ワードの単語クラスに従ってクラスタ化され,出力として予測されることがわかった。
論文 参考訳(メタデータ) (2023-02-15T11:02:50Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Context based lemmatizer for Polish language [0.0]
レマティゼーション(英: Lemmatization)とは、単語の屈折形をまとめて一つの項目として分析する過程である。
計算言語学において、補題化(英:lemmatisation)とは、単語の補題を決定するアルゴリズムのプロセスである。
このモデルは、言語補題化プロセスにおける最良の結果を得る。
論文 参考訳(メタデータ) (2022-07-23T18:02:16Z) - A Paradigm Change for Formal Syntax: Computational Algorithms in the
Grammar of English [0.0]
私たちは、プログラム言語を、プロセスベースの英語構文のモデルにします。
機能語と内容語の組み合わせをモデリングのトピックとして選んだ。
モデルの適合性は、アルゴリズムに不可欠な3つの機能特性を導出し、英語文法におけるそれらの存在を確認することによって検証された。
論文 参考訳(メタデータ) (2022-05-24T07:28:47Z) - Generalized Optimal Linear Orders [9.010643838773477]
言語の逐次構造、特に文中の単語の順序は、人間の言語処理において中心的な役割を果たす。
言語の計算モデルの設計において、デファクトのアプローチは、原文と同じ順序で命令された単語を機械に提示することである。
この研究の本質は、これが望ましいという暗黙の仮定を疑問視し、自然言語処理における語順の考慮に理論的健全性を注入することである。
論文 参考訳(メタデータ) (2021-08-13T13:10:15Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。