論文の概要: CRAFT: Extracting and Tuning Cultural Instructions from the Wild
- arxiv url: http://arxiv.org/abs/2405.03138v2
- Date: Wed, 10 Jul 2024 02:54:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 21:10:19.212792
- Title: CRAFT: Extracting and Tuning Cultural Instructions from the Wild
- Title(参考訳): CRAFT:野生からの文化教育の抽出・調整
- Authors: Bin Wang, Geyu Lin, Zhengyuan Liu, Chengwei Wei, Nancy F. Chen,
- Abstract要約: 本稿では,未構造化コーパスから高品質で文化的に関連のある命令チューニングデータセットを抽出するための新しいパイプラインを提案する。
自己指示生成パイプラインを用いて、文化的概念を特定し、指導をトリガーする。
シンガポール、フィリピン、アメリカという3つの地域で実験を行い、最大6%のパフォーマンス向上を実現しました。
- 参考スコア(独自算出の注目度): 38.255242754975654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have rapidly evolved as the foundation of various natural language processing (NLP) applications. Despite their wide use cases, their understanding of culturally-related concepts and reasoning remains limited. Meantime, there is a significant need to enhance these models' cultural reasoning capabilities, especially concerning underrepresented regions. This paper introduces a novel pipeline for extracting high-quality, culturally-related instruction tuning datasets from vast unstructured corpora. We utilize a self-instruction generation pipeline to identify cultural concepts and trigger instruction. By integrating with a general-purpose instruction tuning dataset, our model demonstrates enhanced capabilities in recognizing and understanding regional cultural nuances, thereby enhancing its reasoning capabilities. We conduct experiments across three regions: Singapore, the Philippines, and the United States, achieving performance improvement of up to 6%. Our research opens new avenues for extracting cultural instruction tuning sets directly from unstructured data, setting a precedent for future innovations in the field.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)アプリケーションの基礎として急速に進化してきた。
広く使われているにもかかわらず、文化的な概念や推論に対する理解は依然として限られている。
時が経つと、これらのモデルの文化的推論能力、特に表現不足の地域について、大幅に強化する必要性がある。
本稿では,未構造化コーパスから高品質で文化的に関連のある命令チューニングデータセットを抽出するための新しいパイプラインを提案する。
自己指示生成パイプラインを用いて、文化的概念を特定し、指導をトリガーする。
汎用的な指導調律データセットと統合することにより,地域文化のニュアンスを認識し理解する能力が向上し,推論能力が向上することを示す。
シンガポール、フィリピン、アメリカという3つの地域で実験を行い、最大6%のパフォーマンス向上を実現しました。
本研究は、非構造化データから直接文化的指導用チューニングセットを抽出する新たな道を開き、今後のイノベーションの先駆けとなる。
関連論文リスト
- Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models [22.92083941222383]
DALL-E 3によって生成され、人間によって検証される大規模なデータセットであるDalleStreetを紹介する。
我々は,オープンソース(LLaVA)とクローズドソース(GPT-4V)の両方のモデルを用いて,地理的サブリージョンレベルでの文化的理解の相違を見出した。
以上の結果から,LMMの文化的能力の微妙なイメージが浮かび上がっており,文化認識システムの開発の必要性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-07-02T08:55:41Z) - Methodology of Adapting Large English Language Models for Specific Cultural Contexts [10.151487049108626]
本稿では,特定の文化的文脈における大規模モデルの迅速な適応手法を提案する。
適応LLMは、ドメイン固有の知識と安全性値への適応性において、その能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-26T09:16:08Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CultureBank: An Online Community-Driven Knowledge Base Towards Culturally Aware Language Technologies [53.2331634010413]
CultureBankは、ユーザの自己物語に基づいて構築された知識ベースである。
TikTokから12K、Redditから1Kの文化的記述が含まれている。
今後の文化的に意識された言語技術に対する推奨事項を提示する。
論文 参考訳(メタデータ) (2024-04-23T17:16:08Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Enhancing Content Moderation with Culturally-Aware Models [9.890160776193616]
この研究は、文化的な知識で基礎言語モデルを強化する柔軟なフレームワークを導入します。
この枠組みを,様々な領域にまたがるコンテンツを備えたオンラインポッドキャストプラットフォームを事例として評価した。
論文 参考訳(メタデータ) (2023-12-05T00:11:09Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。