論文の概要: IDIOLEX: Unified and Continuous Representations for Idiolectal and Stylistic Variation
- arxiv url: http://arxiv.org/abs/2604.04704v1
- Date: Mon, 06 Apr 2026 14:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.22174
- Title: IDIOLEX: Unified and Continuous Representations for Idiolectal and Stylistic Variation
- Title(参考訳): IDIOLEX: Idiolectal と Stylistic を統一かつ連続的に表現する
- Authors: Anjali Kantharuban, Aarohi Srivastava, Fahim Faisal, Orevaoghene Ahia, Antonios Anastasopoulos, David Chiang, Yulia Tsvetkov, Graham Neubig,
- Abstract要約: 既存の文表現は主に、その表現方法ではなく、ある文が何を言っているかを符号化する。
本研究は,意味内容から分離したスタイルと方言をキャプチャする文表現を開発する。
IDIOLEX(IDIOLEX)は,文の証明から文の内容の言語的特徴までを統括するモデルを訓練するためのフレームワークである。
- 参考スコア(独自算出の注目度): 88.98544786373212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing sentence representations primarily encode what a sentence says, rather than how it is expressed, even though the latter is important for many applications. In contrast, we develop sentence representations that capture style and dialect, decoupled from semantic content. We call this the task of idiolectal representation learning. We introduce IDIOLEX, a framework for training models that combines supervision from a sentence's provenance with linguistic features of a sentence's content, to learn a continuous representation of each sentence's style and dialect. We evaluate the approach on dialects of both Arabic and Spanish. The learned representations capture meaningful variation and transfer across domains for analysis and classification. We further explore the use of these representations as training objectives for stylistically aligning language models. Our results suggest that jointly modeling individual and community-level variation provides a useful perspective for studying idiolect and supports downstream applications requiring sensitivity to stylistic differences, such as developing diverse and accessible LLMs.
- Abstract(参考訳): 既存の文表現は主に、その文がどのように表現されるかではなく、ある文が何を言っているかをエンコードする。
対照的に、文表現はスタイルや方言をキャプチャし、意味的内容とは切り離して表現する。
私たちはこれを慣用的な表現学習のタスクと呼んでいる。
IDIOLEXは,文の出自と文内容の言語的特徴を組み合わせ,各文のスタイルや方言の連続的な表現を学習するためのモデル学習フレームワークである。
我々はアラビア語とスペイン語の方言に対するアプローチを評価する。
学習された表現は、分析と分類のために意味のある変化とドメイン間の移動をキャプチャする。
さらに,言語モデルをスタイリスティックに整合させるための訓練目的として,これらの表現の利用について検討する。
この結果から,個人レベルの変動とコミュニティレベルの変動を共同でモデル化することは,多種多様なLCMの開発など,形式的差異に敏感な下流アプリケーションを支援する上で有用であることが示唆された。
関連論文リスト
- LANE: Lexical Adversarial Negative Examples for Word Sense Disambiguation [3.506940838682547]
きめ細かい単語の意味論は、ニューラルネットワークモデルにとって依然として重要な課題である。
本稿では,この制限に対処するため,LANEと呼ばれる新たな対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2025-11-14T12:37:20Z) - Large Language Models Share Representations of Latent Grammatical Concepts Across Typologically Diverse Languages [15.203789021094982]
大規模言語モデル(LLM)では、複数の言語がどのように学習され、エンコードされているか?
Llama-3-8BとAya-23-8Bでスパースオートエンコーダを訓練し、抽象文法の概念が多くの言語で共有される特徴方向に符号化されることを実証する。
論文 参考訳(メタデータ) (2025-01-10T21:18:21Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - Multilingual Extraction and Categorization of Lexical Collocations with
Graph-aware Transformers [86.64972552583941]
我々は,グラフ対応トランスフォーマアーキテクチャにより拡張されたBERTに基づくシーケンスタグ付けモデルを提案し,コンテキストにおけるコロケーション認識の課題について評価した。
以上の結果から, モデルアーキテクチャにおける構文的依存関係を明示的に符号化することは有用であり, 英語, スペイン語, フランス語におけるコロケーションのタイプ化の差異について考察する。
論文 参考訳(メタデータ) (2022-05-23T16:47:37Z) - Testing the Ability of Language Models to Interpret Figurative Language [69.59943454934799]
比喩的・比喩的な言語は言論において一般的である。
現代の言語モデルが非リテラルなフレーズをどの程度解釈できるかについては、未解決の疑問が残る。
ウィノグラードスタイルの非文字言語理解タスクであるFig-QAを紹介する。
論文 参考訳(メタデータ) (2022-04-26T23:42:22Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。