論文の概要: A surprisal--duration trade-off across and within the world's languages
- arxiv url: http://arxiv.org/abs/2109.15000v1
- Date: Thu, 30 Sep 2021 10:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:55:48.726540
- Title: A surprisal--duration trade-off across and within the world's languages
- Title(参考訳): 世界の言語間および言語内における代用的-代用的トレードオフ
- Authors: Tiago Pimentel, Clara Meister, Elizabeth Salesky, Simone Teufel,
Dami\'an Blasi, Ryan Cotterell
- Abstract要約: 平均して、携帯電話は驚きの少ない言語でより速く生産され、その逆であることがわかった。
我々は,世界の言語をまたいで,運用中の先物貿易の強い証拠が存在すると結論づける。
- 参考スコア(独自算出の注目度): 46.62761982601519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While there exist scores of natural languages, each with its unique features
and idiosyncrasies, they all share a unifying theme: enabling human
communication. We may thus reasonably predict that human cognition shapes how
these languages evolve and are used. Assuming that the capacity to process
information is roughly constant across human populations, we expect a
surprisal--duration trade-off to arise both across and within languages. We
analyse this trade-off using a corpus of 600 languages and, after controlling
for several potential confounds, we find strong supporting evidence in both
settings. Specifically, we find that, on average, phones are produced faster in
languages where they are less surprising, and vice versa. Further, we confirm
that more surprising phones are longer, on average, in 319 languages out of the
600. We thus conclude that there is strong evidence of a surprisal--duration
trade-off in operation, both across and within the world's languages.
- Abstract(参考訳): 自然言語のスコアは存在し、それぞれに固有の特徴と慣用性があるが、それらは共通のテーマを共有している。
したがって、人間の認識がこれらの言語の進化や利用の仕方を合理的に予測することができる。
情報処理能力が人口全体にわたってほぼ一定であると仮定すると、言語間および言語内において超越的トレードオフが発生することを期待する。
このトレードオフを600の言語からなるコーパスで分析し、いくつかの潜在的なコンファクトを制御した後、両方の設定で強力な支持証拠を見つける。
具体的には、平均して、携帯電話は驚きの少ない言語でより速く生産され、その逆であることがわかった。
さらに私たちは、600言語中319言語で、平均して驚くべきスマートフォンがより長いことを確認しました。
したがって、世界の言語全体と言語内部の両方において、運用上の超越的なトレードオフの強い証拠が存在すると結論づける。
関連論文リスト
- A Roadmap for Multilingual, Multimodal Domain Independent Deception Detection [2.1506382989223782]
人間のコミュニケーションの一般的な側面である騙しは、デジタル時代において大きな変化を遂げた。
近年の研究では、英語の領域にまたがる騙しに普遍的な言語的手がかりが存在する可能性が示されている。
低リソース言語における誤検出の実践的課題は、ラベル付きデータがないため、よく研究されている問題ではない。
論文 参考訳(メタデータ) (2024-05-07T00:38:34Z) - The Role of Language Imbalance in Cross-lingual Generalisation: Insights from Cloned Language Experiments [57.273662221547056]
本研究では,言語間一般化の非直感的な新規ドライバである言語不均衡について検討する。
学習中に支配的な言語が存在することが、あまり頻度の低い言語の性能を高めることを観察する。
分析を実言語に拡張するにつれ、頻繁な言語は依然として恩恵を受けていますが、言語不均衡が言語間の一般化を引き起こすかどうかは決定的ではありません。
論文 参考訳(メタデータ) (2024-04-11T17:58:05Z) - Testing the Predictions of Surprisal Theory in 11 Languages [77.45204595614]
本研究では,11言語における副次的時間と読解時間の関係について検討する。
より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。
論文 参考訳(メタデータ) (2023-07-07T15:37:50Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Are Mutually Intelligible Languages Easier to Translate? [30.41671642147019]
本稿では,ニューラルマシーン翻訳モデルの学習に必要なデータ量は,言語間の相互理解性に反することを示す。
ロマンス語群の実験では、モデルの学習曲線の下での領域と、人間の話者を研究することによって得られる相互の知性スコアとの間には、確かに強い相関関係があることが明らかにされた。
論文 参考訳(メタデータ) (2022-01-31T09:22:23Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。