論文の概要: Marshall-Olkin Power-Law Distributions in Length-Frequency of Entities
- arxiv url: http://arxiv.org/abs/1811.03325v4
- Date: Wed, 10 May 2023 08:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 18:39:22.961411
- Title: Marshall-Olkin Power-Law Distributions in Length-Frequency of Entities
- Title(参考訳): 長鎖周波数におけるMarshall-Olkin電力線分布
- Authors: Xiaoshi Zhong and Xiang Yu and Erik Cambria and Jagath C. Rajapakse
- Abstract要約: 異なる型と異なる言語からのエンティティの下位分布について検討する。
実験の結果,マーシャル・オルキンのパワーローモデルでは,純粋なパワーローモデルやログ正規モデルよりも長周期のエンティティが特徴的であることがわかった。
- 参考スコア(独自算出の注目度): 16.081437706827245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entities involve important concepts with concrete meanings and play important
roles in numerous linguistic tasks. Entities have different forms in different
tasks and researchers treat those forms as different concepts. In this paper,
we are curious to know whether there are some common characteristics connecting
those different forms of entities. Specifically, we investigate the underlying
distributions of entities from different types and different languages, trying
to figure out some common properties behind those diverse entities. We find
from twelve datasets about different types of entities and eighteen datasets
about different languages of entities that although these entities are
dramatically diverse from each in many aspects, their length-frequencies can be
well characterized by Marshall-Olkin power-law (MOPL) distributions, and these
distributions possess defined means and finite variances. Our experiments show
that while not all the entities are drawn from the same underlying population,
those entities under same types tend to be drawn from the same distribution.
Our experiments also show that Marshall-Olkin power-law models characterize the
length-frequencies of entities much better than pure power-law models and
log-normal models.
- Abstract(参考訳): 実体は具体的な意味を持つ重要な概念を含み、多くの言語課題において重要な役割を果たす。
エンティティは異なるタスクで異なるフォームを持ち、研究者はそれらのフォームを異なる概念として扱う。
本稿では,これらの異なる形態の実体をつなぐ共通的な特徴が存在するかどうかを知りたい。
具体的には、異なる型や異なる言語からのエンティティの基盤となる分布を調べ、それらの多様なエンティティの背後にある共通の特性を解明しようとする。
異なるタイプのエンティティに関する12のデータセットと、異なる言語のエンティティに関する18のデータセットから、これらのエンティティは様々な点で劇的に多様であるが、その長さ周波数はMarshall-Olkin Power-law(MOPL)分布によって特徴付けられる。
実験の結果、全ての実体が同じ集団から引き出されるわけではないが、同じタイプの実体は同じ分布から引き出される傾向にあることがわかった。
我々の実験では、マーシャル・オルキン・パワーローモデルが純粋なパワーローモデルや対数正規モデルよりも、エンティティの長さ-頻度を特徴付けることも示しています。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文 参考訳(メタデータ) (2024-04-22T03:47:00Z) - High-Dimension Human Value Representation in Large Language Models [60.33033114185092]
大規模言語モデル(LLM)における人的価値分布の高次元表現であるUniVaRを提案する。
我々は,UniVaRが,異なるLLMに埋め込まれた人間の値と異なる言語源との分布を比較する強力なツールであることを示す。
論文 参考訳(メタデータ) (2024-04-11T16:39:00Z) - Perturbed examples reveal invariances shared by language models [8.04604449335578]
2つのNLPモデルを比較するための新しいフレームワークを提案する。
このフレームワークは、同じおよび異なるアーキテクチャファミリーのモデルに関する実験であり、モデルの変化が言語機能にどのように影響するかについての洞察を提供する。
論文 参考訳(メタデータ) (2023-11-07T17:48:35Z) - A Joint Matrix Factorization Analysis of Multilingual Representations [28.751144371901958]
多言語モデルと単言語モデルの潜在表現を比較するために,結合行列の分解に基づく解析ツールを提案する。
我々は,多言語事前学習モデルを用いて学習した表現において,形態素的特徴がどのように反映されるかについて検討した。
論文 参考訳(メタデータ) (2023-10-24T04:43:45Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - An Empirical Study of Factors Affecting Language-Independent Models [11.976665726887733]
言語に依存しないモデルは、モノリンガルデータを用いて訓練されたモデルに匹敵するか、さらに優れることを示す。
我々は,多くの異なる言語で言語に依存しないモデルを実験し,それらが類型的に類似した言語に適していることを示す。
論文 参考訳(メタデータ) (2019-12-30T22:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。