論文の概要: Ética para LLMs: o compartilhamento de dados sociolinguísticos
- arxiv url: http://arxiv.org/abs/2411.07512v1
- Date: Tue, 12 Nov 2024 03:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:01.580688
- Title: Ética para LLMs: o compartilhamento de dados sociolinguísticos
- Title(参考訳): エチカ・パラ LLMs:o compartilhamento de dados sociallinguísticos
- Authors: Marta Deysiane Alves Faria Sousa, Raquel Meister Ko. Freitag, Túlio Sousa de Gois,
- Abstract要約: このようなデータの収集と普及に関連する倫理的考察を検討する。
本研究は,音声に寄与した情報提供者の識別を容易にするため,音声データの感度に対処するための戦略を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The collection of speech data carried out in Sociolinguistics has the potential to enhance large language models due to its quality and representativeness. In this paper, we examine the ethical considerations associated with the gathering and dissemination of such data. Additionally, we outline strategies for addressing the sensitivity of speech data, as it may facilitate the identification of informants who contributed with their speech.
- Abstract(参考訳): ソシオ言語学における音声データの収集は、その品質と代表性から、大きな言語モデルを強化する可能性がある。
本稿では,これらのデータの収集と普及に関連する倫理的考察について考察する。
また,音声に寄与した情報提供者の識別を容易にするため,音声データの感度に対処するための戦略を概説する。
関連論文リスト
- Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Instruction Data Generation and Unsupervised Adaptation for Speech Language Models [21.56355461403427]
本稿では,多モーダル大規模言語モデルの訓練と評価を行うために,合成サンプルを生成する3つの方法を提案する。
このようなシステムの性能を高めるための重要な戦略として、合成データ生成が出現する。
我々は、未ラベルの音声データを用いて、利用可能な書き起こしに匹敵する品質の合成サンプルを生成する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-18T08:27:00Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Augmented Datasheets for Speech Datasets and Ethical Decision-Making [2.7106766103546236]
音声データセットは音声言語技術(SLT)の訓練に不可欠である
基礎となるトレーニングデータの多様性の欠如は、公平で堅牢なSLT製品を構築する上で、深刻な制限につながる可能性がある。
このようなデータ収集の倫理に関して、基礎となるトレーニングデータに対する監視の欠如がしばしばある。
論文 参考訳(メタデータ) (2023-05-08T12:49:04Z) - Considerations for Ethical Speech Recognition Datasets [0.799536002595393]
自動音声認識をケーススタディとして使用し、倫理的音声データセットが責任あるAIアプリケーションに対して持つべき特性について検討する。
トレーニングされたモデルを改善するために必要な多様性の問題、包括的プラクティス、必要な考慮事項を紹介します。
我々は、データ対象の法的・プライバシー保護、ユーザ人口統計とニーズに応じたターゲットデータサンプリング、モデル故障時の説明可能性と説明責任を保証する適切なメタデータについて論じる。
論文 参考訳(メタデータ) (2023-05-03T12:38:14Z) - On the Effects of Knowledge-Augmented Data in Word Embeddings [0.6749750044497732]
単語埋め込み学習のためのデータ拡張による言語知識注入のための新しい手法を提案する。
提案手法は,学習した埋め込みの本質的な特性を向上すると同時に,下流テキスト分類タスクにおける結果の大幅な変更は行わない。
論文 参考訳(メタデータ) (2020-10-05T02:14:13Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。