論文の概要: JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models' Detection of Human Self-Destructive Behavior Content in Jirai Community
- arxiv url: http://arxiv.org/abs/2503.21679v1
- Date: Thu, 27 Mar 2025 16:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:55:00.831975
- Title: JiraiBench: A Bilingual Benchmark for Evaluating Large Language Models' Detection of Human Self-Destructive Behavior Content in Jirai Community
- Title(参考訳): JiraiBench: 大規模言語モデルの人的自己破壊行動内容検出のためのバイリンガルベンチマーク
- Authors: Yunze Xiao, Tingyu He, Lionel Z. Wang, Yiming Ma, Xingyu Song, Xiaohang Xu, Irene Li, Ka Chung Ng,
- Abstract要約: 本稿では,大規模言語モデルによる自己破壊的コンテンツ検出の有効性を評価するための,最初のバイリンガルベンチマークである JiraiBench を紹介する。
我々は,薬物過剰摂取,摂食障害,自傷など多種の自己破壊行動を含む,全国的な地雷オンラインサブカルチャーに注目した。
本データセットは,3つの行動カテゴリーに沿って,多次元アノテーションを用いた10,419の中国語投稿と5000の日本語投稿からなる。
- 参考スコア(独自算出の注目度): 9.492476871323763
- License:
- Abstract: This paper introduces JiraiBench, the first bilingual benchmark for evaluating large language models' effectiveness in detecting self-destructive content across Chinese and Japanese social media communities. Focusing on the transnational "Jirai" (landmine) online subculture that encompasses multiple forms of self-destructive behaviors including drug overdose, eating disorders, and self-harm, we present a comprehensive evaluation framework incorporating both linguistic and cultural dimensions. Our dataset comprises 10,419 Chinese posts and 5,000 Japanese posts with multidimensional annotation along three behavioral categories, achieving substantial inter-annotator agreement. Experimental evaluations across four state-of-the-art models reveal significant performance variations based on instructional language, with Japanese prompts unexpectedly outperforming Chinese prompts when processing Chinese content. This emergent cross-cultural transfer suggests that cultural proximity can sometimes outweigh linguistic similarity in detection tasks. Cross-lingual transfer experiments with fine-tuned models further demonstrate the potential for knowledge transfer between these language systems without explicit target language training. These findings highlight the need for culturally-informed approaches to multilingual content moderation and provide empirical evidence for the importance of cultural context in developing more effective detection systems for vulnerable online communities.
- Abstract(参考訳): 本稿では,中国と日本のソーシャルメディアコミュニティにおける自己破壊的コンテンツの検出における大規模言語モデルの有効性を評価するための,最初のバイリンガルベンチマークである JiraiBench を紹介する。
薬物過剰摂取,摂食障害,セルフハームなど,多種の自己破壊行動を含む超国家的「地雷」オンラインサブカルチャーに着目し,言語的・文化的側面を取り入れた総合的な評価枠組みを提案する。
本データセットは,3つの行動カテゴリーに沿った多次元アノテーションを用いた10,419の中国語投稿と5000の日本語投稿からなる。
4つの最先端モデルの実験的評価は、日本語のプロンプトが中国語のコンテンツ処理において予期せぬ性能を上回り、指導言語に基づく顕著な性能変化を示す。
この突発的な異文化間移動は、文化的近接が検出タスクにおける言語的類似性を上回る可能性があることを示唆している。
微調整されたモデルを用いた言語間移動実験は、これらの言語システム間の知識伝達の可能性をさらに実証する。
これらの知見は、多言語コンテンツモデレーションへの文化的インフォームドアプローチの必要性を強調し、脆弱なオンラインコミュニティのためのより効果的な検出システムの開発において、文化的文脈の重要性を実証的に証明する。
関連論文リスト
- Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - KULTURE Bench: A Benchmark for Assessing Language Model in Korean Cultural Context [5.693660906643207]
韓国文化に特化して設計された評価フレームワークであるKULTURE Benchを紹介する。
言語モデルの文化的理解と、単語、文、段落レベルでの推論能力を評価するように設計されている。
その結果,韓国文化のより深い側面に関連する文章の理解は,依然として改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-12-10T07:20:51Z) - Multilingual Dyadic Interaction Corpus NoXi+J: Toward Understanding Asian-European Non-verbal Cultural Characteristics and their Influences on Engagement [6.984291346424792]
我々は,非言語的特徴の多言語計算分析を行い,その係り受け予測における役割について検討する。
音声アコースティックス,表情,バックチャネル,ジェスチャーなど,多言語的非言語的特徴を抽出した。
5つの言語データセットのエンゲージメントを予測するために訓練されたLSTMモデルの入力特徴における文化的差異の影響を解析した。
論文 参考訳(メタデータ) (2024-09-09T18:37:34Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Thai Winograd Schemas: A Benchmark for Thai Commonsense Reasoning [0.0]
本研究は、タイ語の文脈における常識推論能力を評価するために設計された新しいデータセットである、タイ語におけるウィノグラードのコレクションを紹介する。
我々は,このベンチマークで人気の高い大規模言語モデルの性能を評価し,その強み,限界を明らかにし,現在の最先端技術に対する洞察を提供する。
論文 参考訳(メタデータ) (2024-05-28T17:14:02Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Cross-Cultural Transfer Learning for Chinese Offensive Language
Detection [9.341003339029221]
本研究では,異なる文化背景からの攻撃的言語検出データを用いた転帰学習の効果を検討することを目的とする。
また, 言語モデルの伝達性に悪影響を及ぼす要因として, 文化特有のバイアスがあることがわかった。
しかし,数ショットの学習シナリオでは,限られた資源を用いた非英語攻撃型言語検出が期待できる可能性を示した。
論文 参考訳(メタデータ) (2023-03-31T09:50:07Z) - Deception detection in text and its relation to the cultural dimension
of individualism/collectivism [6.17866386107486]
本研究は,文化における特定の言語的特徴の活用の相違が,個性主義/選択主義の分断に関して,規範に起因しているかどうかを考察する。
我々は、音韻学、形態学、構文に基づく幅広いn-gram特徴を実験することにより、カルチャー/言語対応分類器を作成する。
我々は6カ国(米国、ベルギー、インド、ロシア、メキシコ、ルーマニア)の5言語(英語、オランダ、ロシア、スペイン、ルーマニア)から11のデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-05-26T13:09:47Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。