論文の概要: Harnessing Code Switching to Transcend the Linguistic Barrier
- arxiv url: http://arxiv.org/abs/2001.11258v2
- Date: Tue, 16 Jun 2020 02:31:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 11:55:23.788110
- Title: Harnessing Code Switching to Transcend the Linguistic Barrier
- Title(参考訳): Harnessing Code Switching to Transcend the Linguistic Barrier (英語)
- Authors: Ashiqur R. KhudaBukhsh, Shriphani Palakodety, Jaime G. Carbonell
- Abstract要約: コードミキシング(コードミキシング、英: Code Mixing)は、言語的に多様なユーザベースによって生成されたソーシャルメディアコンテンツで見られる一般的な現象である。
プルワマのテロ攻撃によって引き起こされた2019年のインドとパキスタンの紛争の状況において、我々は、人間の幸福のためにコードミキシングを利用する未解決の可能性を実証した。
- 参考スコア(独自算出の注目度): 30.401463908211312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code mixing (or code switching) is a common phenomenon observed in
social-media content generated by a linguistically diverse user-base. Studies
show that in the Indian sub-continent, a substantial fraction of social media
posts exhibit code switching. While the difficulties posed by code mixed
documents to further downstream analyses are well-understood, lending
visibility to code mixed documents under certain scenarios may have utility
that has been previously overlooked. For instance, a document written in a
mixture of multiple languages can be partially accessible to a wider audience;
this could be particularly useful if a considerable fraction of the audience
lacks fluency in one of the component languages. In this paper, we provide a
systematic approach to sample code mixed documents leveraging a polyglot
embedding based method that requires minimal supervision. In the context of the
2019 India-Pakistan conflict triggered by the Pulwama terror attack, we
demonstrate an untapped potential of harnessing code mixing for human
well-being: starting from an existing hostility diffusing \emph{hope speech}
classifier solely trained on English documents, code mixed documents are
utilized as a bridge to retrieve \emph{hope speech} content written in a
low-resource but widely used language - Romanized Hindi. Our proposed pipeline
requires minimal supervision and holds promise in substantially reducing web
moderation efforts.
- Abstract(参考訳): コードミキシング(コードミキシング、またはコードスイッチング)は、言語的に多様なユーザーベースによって生成されるソーシャルメディアコンテンツで見られる一般的な現象である。
インド亜大陸では、かなりの数のソーシャルメディア投稿がコードの切り換えを示すことが研究で示されている。
コード混合文書による下流解析の難しさは十分に理解されているが、特定のシナリオでコード混合文書を見える化することは、これまで見過ごされていた有用性を持つ可能性がある。
例えば、複数の言語が混在して書かれた文書は、より広い聴衆に部分的にアクセスすることができる。
本稿では,最小限の監督を必要とするポリグロット埋め込み方式を利用したサンプルコード混在文書に対する体系的アプローチを提案する。
プルワマのテロ攻撃によって引き起こされた2019年のインドとパキスタンの紛争の文脈では、人間の幸福のためにコードミキシングを利用する、未解決の可能性を実証する: 英語の文書でのみ訓練された既存の敵対関係から始まり、コード混合文書は、低リソースだが広く使われている言語で書かれた『emph{hope speech}』コンテンツを取得するための橋として利用される。
提案するパイプラインは、最小限の監視が必要であり、Webモデレーションの取り組みを大幅に減らすことを約束します。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Language Agnostic Code Embeddings [61.84835551549612]
私たちは、さまざまなプログラミング言語にまたがるコード埋め込みの言語間機能に重点を置いています。
1つは特定の言語のニュアンスと構文に深く結びついており、もう1つは詳細を知らない。
我々は、この言語固有のコンポーネントを分離して排除すると、下流のコード検索タスクが大幅に改善されることを示した。
論文 参考訳(メタデータ) (2023-10-25T17:34:52Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Offense Detection in Dravidian Languages using Code-Mixing Index based
Focal Loss [1.7267596343997798]
攻撃的内容を特定する複雑さは、複数のモダリティの使用によって悪化する。
我々のモデルは、低リソース、クラス不均衡、多言語、コード混合設定で攻撃的な言語検出を処理できる。
論文 参考訳(メタデータ) (2021-11-12T19:50:24Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Challenges and Considerations with Code-Mixed NLP for Multilingual
Societies [1.6675267471157407]
本稿では,NLP研究の現状,限界,予測可能な落とし穴について論じる。
また,社会福祉のための多言語NLPアプリケーションにおける現在の研究を著しく進めることができる未来的データセット,モデル,ツールも提案する。
論文 参考訳(メタデータ) (2021-06-15T00:53:55Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。