論文の概要: A Crosslingual Investigation of Conceptualization in 1335 Languages
- arxiv url: http://arxiv.org/abs/2305.08475v2
- Date: Fri, 26 May 2023 18:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-31 00:09:54.868875
- Title: A Crosslingual Investigation of Conceptualization in 1335 Languages
- Title(参考訳): 1335言語における概念化の言語間比較
- Authors: Yihong Liu, Haotian Ye, Leonie Weissweiler, Philipp Wicke, Renhao Pei,
Robert Zangenfeind, Hinrich Sch\"utze
- Abstract要約: 本稿では,1,335言語間の概念化の相違について,並列コーパスにおける概念の整合性について検討する。
本稿では,ソース言語の概念とターゲット言語文字列の集合との間に二部方向のアライメントグラフを作成する手法であるConceptualizerを提案する。
1つの概念(bird')に対する全言語にわたる詳細な言語分析と32のスワデシュ概念に対する金標準データの評価において、概念化器はアライメント精度が良いことを示す。
- 参考スコア(独自算出の注目度): 0.2216657815393579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Languages differ in how they divide up the world into concepts and words;
e.g., in contrast to English, Swahili has a single concept for `belly' and
`womb'. We investigate these differences in conceptualization across 1,335
languages by aligning concepts in a parallel corpus. To this end, we propose
Conceptualizer, a method that creates a bipartite directed alignment graph
between source language concepts and sets of target language strings. In a
detailed linguistic analysis across all languages for one concept (`bird') and
an evaluation on gold standard data for 32 Swadesh concepts, we show that
Conceptualizer has good alignment accuracy. We demonstrate the potential of
research on conceptualization in NLP with two experiments. (1) We define
crosslingual stability of a concept as the degree to which it has 1-1
correspondences across languages, and show that concreteness predicts
stability. (2) We represent each language by its conceptualization pattern for
83 concepts, and define a similarity measure on these representations. The
resulting measure for the conceptual similarity of two languages is
complementary to standard genealogical, typological, and surface similarity
measures. For four out of six language families, we can assign languages to
their correct family based on conceptual similarity with accuracy between 54%
and 87%.
- Abstract(参考訳): 例えば、英語とは対照的に、スワヒリ語は『belly』と『womb』の1つの概念を持っている。
1,335言語間の概念化におけるこれらの違いを並列コーパスにおける概念の整合によって検討する。
そこで,本稿では,ソース言語の概念と対象言語文字列の集合との双方向指向アライメントグラフを作成する手法であるconceptionizerを提案する。
1つの概念(`bird')に対する全言語にわたる詳細な言語分析と32のスワデシュ概念に対する金標準データの評価において、概念化器はアライメント精度が良いことを示す。
2つの実験により,NLPにおける概念化の研究の可能性を示す。
1) 概念の言語間安定性を言語間の1-1対応度として定義し, 具体性が安定性を予測することを示す。
2) 83概念に対する概念化パターンを用いて各言語を表現し, それらの表現について類似度尺度を定義する。
2つの言語の概念的類似性の結果として得られる尺度は、標準的な系譜学、類型学、表面類似性の尺度と相補的である。
6つの言語ファミリーのうち4つでは、54%から87%の精度で概念的類似性に基づいて言語を正しい家族に割り当てることができる。
関連論文リスト
- Unstable Grounds for Beautiful Trees? Testing the Robustness of Concept Translations in the Compilation of Multilingual Wordlists [1.0136215038345011]
9つの異なる言語族をカバーする10組のデータセットから独立にコンパイルされた単語リストにおける概念翻訳のバリエーションについて検討した。
平均すると、すべての翻訳の83%のみが同じ語形を生成するのに対し、音素の書き起こしにおける同一の形式は全てのケースの23%にしか見つからない。
論文 参考訳(メタデータ) (2025-03-01T12:16:45Z) - Human-like conceptual representations emerge from language prediction [72.5875173689788]
大規模言語モデル(LLMs)は、言語データに対する次世代の予測を通じてのみ訓練され、顕著な人間的な振る舞いを示す。
これらのモデルは、人間に似た概念を発達させ、もしそうなら、そのような概念はどのように表現され、組織化されるのか?
以上の結果から,LLMは言語記述から他の概念に関する文脈的手がかりに関して柔軟に概念を導出できることが示唆された。
これらの結果は、構造化された人間のような概念表現が、現実世界の接地なしに言語予測から自然に現れることを証明している。
論文 参考訳(メタデータ) (2025-01-21T23:54:17Z) - Are Structural Concepts Universal in Transformer Language Models?
Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。
言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。
本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:50:51Z) - A Geometric Notion of Causal Probing [85.49839090913515]
線形部分空間仮説は、言語モデルの表現空間において、動詞数のような概念に関するすべての情報が線形部分空間に符号化されていることを述べる。
理想線型概念部分空間を特徴づける内在的基準のセットを与える。
2つの言語モデルにまたがる少なくとも1つの概念に対して、この概念のサブスペースは、生成された単語の概念値を精度良く操作することができる。
論文 参考訳(メタデータ) (2023-07-27T17:57:57Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - A study of conceptual language similarity: comparison and evaluation [0.3093890460224435]
自然言語処理(NLP)に関する興味深い研究は、言語型学を取り入れ、言語多様性を橋渡しすることを目的としている。
最近の研究は、それらが基本的な概念をどのように表現するかに基づいて、言語類似性を定義する新しいアプローチを導入している。
本研究では,概念的類似性を詳細に研究し,二項分類タスクにおいて広範囲に評価する。
論文 参考訳(メタデータ) (2023-05-22T18:28:02Z) - Analyzing Encoded Concepts in Transformer Language Models [21.76062029833023]
ConceptXは、事前訓練された言語モデル内で学習された表現において、潜伏概念がどのように符号化されるかを分析する。
クラスタリングを使用して、符号化された概念を発見し、人間の定義した概念の大規模なセットと整合してそれらを説明する。
論文 参考訳(メタデータ) (2022-06-27T13:32:10Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - A Computational Approach to Measuring the Semantic Divergence of
Cognates [2.66418345185993]
複数の言語におけるコグネート集合の意味的類似性を測定することにより、言語間の意味的相違について検討する。
言語に依存しない手法は、コグナットの発散の定量的解析を容易にする。
本研究では,「ソフト・フェイル・フレンド」と「ハード・フェイル・フレンド」の概念を導入するとともに,偽友達ペアの「虚偽」の程度を測る尺度を導入する。
論文 参考訳(メタデータ) (2020-12-02T15:52:38Z) - BabelEnconding at SemEval-2020 Task 3: Contextual Similarity as a
Combination of Multilingualism and Language Models [0.5276232626689568]
本稿では,SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word similarity (BabelEnconding) to SemEval-2020 Task 3: Predicting the Graded Effect of Context in Word similarity。
論文 参考訳(メタデータ) (2020-08-19T13:46:37Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。