論文の概要: Lingua Manga: A Generic Large Language Model Centric System for Data
Curation
- arxiv url: http://arxiv.org/abs/2306.11702v1
- Date: Tue, 20 Jun 2023 17:30:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 13:16:54.558498
- Title: Lingua Manga: A Generic Large Language Model Centric System for Data
Curation
- Title(参考訳): Lingua Manga: データキュレーションのための汎用大規模言語モデル百科事典システム
- Authors: Zui Chen, Lei Cao, Sam Madden
- Abstract要約: 本稿では,Lingua Mangaについて紹介する。Lingua Mangaは,学習済みの大規模言語モデルを利用したユーザフレンドリで汎用的なシステムである。
データキュレーションの課題に対処するために、熟練したプログラマとローコード、さらにはノーコードユーザの両方を効果的に支援できることを実証する。
- 参考スコア(独自算出の注目度): 2.401797097758916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data curation is a wide-ranging area which contains many critical but
time-consuming data processing tasks. However, the diversity of such tasks
makes it challenging to develop a general-purpose data curation system. To
address this issue, we present Lingua Manga, a user-friendly and versatile
system that utilizes pre-trained large language models. Lingua Manga offers
automatic optimization for achieving high performance and label efficiency
while facilitating flexible and rapid development. Through three example
applications with distinct objectives and users of varying levels of technical
proficiency, we demonstrate that Lingua Manga can effectively assist both
skilled programmers and low-code or even no-code users in addressing data
curation challenges.
- Abstract(参考訳): データキュレーションは、多くの重要なが時間を要するデータ処理タスクを含む広範囲な領域である。
しかし,このようなタスクの多様性は汎用データキュレーションシステムの開発を困難にしている。
本稿では,事前学習された大規模言語モデルを用いたユーザフレンドリーで汎用性の高いシステムであるlingua mangaを提案する。
lingua mangaは、柔軟性と迅速な開発を促進しながら、高性能とラベル効率を達成するための自動最適化を提供する。
異なる目的を持つ3つのサンプルアプリケーションと様々なレベルの技術スキルを持つユーザを通じて、lingua mangaが、データキュレーションの課題に対処する上で、熟練したプログラマとローコードユーザ、さらにはコードなしユーザの両方を効果的に支援できることを実証する。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Remote Timing Attacks on Efficient Language Model Inference [63.79839291641793]
タイミング差を利用してタイミングアタックをマウントできることが示される。
90%以上の精度でユーザの会話の話題を学習することができるかを示す。
相手はブースティング攻撃を利用して、オープンソースのシステム用のメッセージに置かれたPIIを回復することができる。
論文 参考訳(メタデータ) (2024-10-22T16:51:36Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - MEMLA: Enhancing Multilingual Knowledge Editing with Neuron-Masked Low-Rank Adaptation [18.087144677674786]
我々は多言語知識編集(MKE)に重点を置いており、複数の言語にまたがる更新の伝播が必要である。
12言語からなる新しいデータセットであるMKEB(Multilingual Knowledge Editing Benchmark)を紹介する。
また,ニューロンマスト型低ランク適応(MEMLA)による知識編集を促進する手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T14:03:50Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Contextual Code Switching for Machine Translation using Language Models [1.4866655830571935]
大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。
本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。
以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
論文 参考訳(メタデータ) (2023-12-20T16:40:33Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - When Large Language Models Meet Personalization: Perspectives of
Challenges and Opportunities [60.5609416496429]
大規模言語モデルの能力は劇的に改善されている。
このような大きな飛躍的なAI能力は、パーソナライゼーションの実施方法のパターンを変えるだろう。
大規模言語モデルを汎用インターフェースとして活用することにより、パーソナライズシステムはユーザ要求を計画にコンパイルすることができる。
論文 参考訳(メタデータ) (2023-07-31T02:48:56Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Multilingual training for Software Engineering [0.0]
異なる言語(同じ機能を持つ)の人間が書いたコードとはかなりよく似ていることを示す証拠を提示する。
本稿では,コード要約,コード検索,関数命名の3つのタスクについて検討する。
このデータ拡張アプローチは、さまざまなタスク、言語、マシンラーニングモデルと広く互換性がある。
論文 参考訳(メタデータ) (2021-12-03T17:47:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。