論文の概要: Global Data Constraints: Ethical and Effectiveness Challenges in Large Language Model
- arxiv url: http://arxiv.org/abs/2406.11214v1
- Date: Mon, 17 Jun 2024 05:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 18:24:06.780949
- Title: Global Data Constraints: Ethical and Effectiveness Challenges in Large Language Model
- Title(参考訳): グローバルデータ制約:大規模言語モデルにおける倫理的・効果的な課題
- Authors: Jin Yang, Zhiqiang Wang, Yanbin Lin, Zunduo Zhao,
- Abstract要約: 本稿では,大規模言語モデルにおける高品質な学習データ取得に関わる課題について検討する。
我々は、公開されているがバイアスのある、あるいは無関係なデータソースに依存することの技術的および倫理的意味を強調します。
我々は,データ品質の向上とロバストネスのモデル化を目的としたいくつかの緩和戦略を提案し,検証する。
- 参考スコア(独自算出の注目度): 4.7245503050933335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The efficacy and ethical integrity of large language models (LLMs) are profoundly influenced by the diversity and quality of their training datasets. However, the global landscape of data accessibility presents significant challenges, particularly in regions with stringent data privacy laws or limited open-source information. This paper examines the multifaceted challenges associated with acquiring high-quality training data for LLMs, focusing on data scarcity, bias, and low-quality content across various linguistic contexts. We highlight the technical and ethical implications of relying on publicly available but potentially biased or irrelevant data sources, which can lead to the generation of biased or hallucinatory content by LLMs. Through a series of evaluations using GPT-4 and GPT-4o, we demonstrate how these data constraints adversely affect model performance and ethical alignment. We propose and validate several mitigation strategies designed to enhance data quality and model robustness, including advanced data filtering techniques and ethical data collection practices. Our findings underscore the need for a proactive approach in developing LLMs that considers both the effectiveness and ethical implications of data constraints, aiming to foster the creation of more reliable and universally applicable AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の有効性と倫理的整合性は、トレーニングデータセットの多様性と品質に大きく影響される。
しかし、データアクセシビリティのグローバルな状況は、特に厳格なデータプライバシ法や限られたオープンソース情報を持つ地域では、大きな課題をもたらしている。
本稿では,LLMの高品質トレーニングデータ取得に伴う多面的課題について検討し,各種言語文脈におけるデータ不足,バイアス,低品質コンテンツに着目した。
LLMによる偏見的・幻覚的コンテンツの生成につながる可能性のある、一般に公開されているがバイアスのある、あるいは無関係なデータソースに依存するという技術的・倫理的な意味を強調します。
GPT-4とGPT-4oを用いた一連の評価を通じて、これらのデータ制約がモデル性能と倫理的アライメントにどのように悪影響を及ぼすかを実証する。
本稿では,データ品質の向上と,高度なデータフィルタリング技術や倫理的データ収集手法など,ロバスト性をモデル化するためのいくつかの緩和戦略を提案し,検証する。
我々の発見は、データ制約の有効性と倫理的意味の両方を考慮し、より信頼性が高く普遍的に適用可能なAIシステムの構築を促進するLLMの開発において、積極的なアプローチの必要性を浮き彫りにしている。
関連論文リスト
- Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.632816425798108]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。
トークン化事前学習はバイアスやその他の望ましくないコンテンツのバックドアになり得ることを示す。
トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability [53.51560766150442]
臨界トークンは推論軌道内の要素であり、誤った結果に大きな影響を及ぼす。
本稿では,これらのトークンをロールアウトサンプリングによって識別する新しいフレームワークを提案する。
クリティカルトークンの識別と置換がモデル精度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-11-29T18:58:22Z) - Towards Linguistically-Aware and Language-Independent Tokenization for Large Language Models (LLMs) [0.09374652839580183]
本稿では,最先端の大規模言語モデル(LLM)が採用するトークン化手法について述べる。
本研究は,これらのモデル間で観測されるトークン化の多様性を評価し,サブワードトークン化における言語表現の課題について検討する。
本研究の目的は、この領域以降のAIサービスの開発において、一般化可能な国際化(I18N)の実践を促進することである。
論文 参考訳(メタデータ) (2024-10-04T16:18:29Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。
本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。
そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文 参考訳(メタデータ) (2024-05-08T20:37:56Z) - The first step is the hardest: Pitfalls of Representing and Tokenizing
Temporal Data for Large Language Models [10.414206635385632]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な一般化を実証している。
ウェアラブルや電子健康記録から得られたデータなど、数値データや時間データをこれらのモデルに入力する際に、顕著な障害が発生する。
モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じるとともに、一般的なLLMが時間データを誤ってトークン化していることを示すケーススタディを示す。
論文 参考訳(メタデータ) (2023-09-12T13:51:29Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language [0.015863809575305417]
人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。
トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
論文 参考訳(メタデータ) (2021-03-14T22:12:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。