論文の概要: Comparing Styles across Languages
- arxiv url: http://arxiv.org/abs/2310.07135v2
- Date: Tue, 5 Dec 2023 02:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 19:20:24.771172
- Title: Comparing Styles across Languages
- Title(参考訳): 言語間のスタイルの比較
- Authors: Shreya Havaldar, Matthew Pressimone, Eric Wong, Lyle Ungar
- Abstract要約: 本稿では,多言語LMからスタイリスティックな違いを抽出し,言語間のスタイルを比較するための説明フレームワークを提案する。
我々のフレームワークはあらゆる言語で包括的なスタイルレキシカを生成する。
この枠組みを用いて丁寧さを比較し、最初の全体論的多言語多言語丁寧さデータセットを作成する。
- 参考スコア(独自算出の注目度): 12.585216712212437
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding how styles differ across languages is advantageous for training
both humans and computers to generate culturally appropriate text. We introduce
an explanation framework to extract stylistic differences from multilingual LMs
and compare styles across languages. Our framework (1) generates comprehensive
style lexica in any language and (2) consolidates feature importances from LMs
into comparable lexical categories. We apply this framework to compare
politeness, creating the first holistic multilingual politeness dataset and
exploring how politeness varies across four languages. Our approach enables an
effective evaluation of how distinct linguistic categories contribute to
stylistic variations and provides interpretable insights into how people
communicate differently around the world.
- Abstract(参考訳): 言語間のスタイルの違いを理解することは、人間とコンピュータの両方が文化的に適切なテキストを生成するように訓練する上で有利である。
本稿では,多言語LMからスタイリスティックな違いを抽出し,言語間のスタイルを比較するための説明フレームワークを提案する。
我々のフレームワーク(1)は、あらゆる言語で包括的なスタイルレキシカを生成し、(2)LMから同等の語彙カテゴリに特徴を集約する。
この枠組みを適用して、多言語多言語多言語多義性データセットを初めて作成し、4つの言語で多義性がどのように変化するかを探索する。
本手法は, 言語カテゴリーの違いが形態的変化にどのように寄与するかを効果的に評価し, 人々のコミュニケーションの仕方に関する解釈可能な洞察を提供する。
関連論文リスト
- Are Structural Concepts Universal in Transformer Language Models?
Towards Interpretable Cross-Lingual Generalization [27.368684663279463]
本稿では,言語間の概念対応を明確に整合させ,言語間の一般化を促進する可能性について検討する。
言語構文の側面をテストベッドとして,43言語を解析した結果,高い整合性を示した。
本稿では,メタラーニングに基づく概念空間の整合学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:50:51Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Multi-level Contrastive Learning for Cross-lingual Spoken Language
Understanding [90.87454350016121]
コントラスト学習のための難解なサンプルを, あらゆるレベルで生成するコードスイッチング手法を開発した。
言語間知識伝達にラベルセマンティクスを利用するラベル認識ジョイントモデルを開発した。
論文 参考訳(メタデータ) (2022-05-07T13:44:28Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z) - Identifying Distributional Perspective Differences from Colingual Groups [41.58939666949895]
特定の価値観や出来事に対する視点に関する異なるグループ間での相互理解の欠如は、インフォームドな決定や偏見のない意見につながる可能性がある。
本研究では,コリンガル群を研究対象とし,言語コーパスをプロキシとして用いて分布的視点を同定する。
本稿では,共通理解を学習するための新しい計算手法を提案し,その手法を英語,中国語,日本語の文化的認識モデルの構築によって評価する。
論文 参考訳(メタデータ) (2020-04-10T08:13:07Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。