論文の概要: BIASEDTALES-ML: A Multilingual Dataset for Analyzing Narrative Attribute Distributions in LLM-Generated Stories
- arxiv url: http://arxiv.org/abs/2604.17008v1
- Date: Sat, 18 Apr 2026 14:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.284314
- Title: BIASEDTALES-ML: A Multilingual Dataset for Analyzing Narrative Attribute Distributions in LLM-Generated Stories
- Title(参考訳): BIASEDTALES-ML: LLM-Generated Storiesにおける物語属性分布の分析用多言語データセット
- Authors: Yuxuan Ouyang, yingfeng luo, JingBo Zhu, Tong Xiao,
- Abstract要約: BiasedTales-MLは8つの類型的および文化的に多様な言語で生成される約35万の児童話からなる大規模並列コーパスである。
分析の結果,ナラティブ生成パターンの言語間差異は顕著であり,英語で観察される分布が他の言語と類似した特徴を示すとは限らないことが示唆された。
これらの知見は、多言語環境下での社会的基盤の物語生成を特徴付けるための英語中心評価の限界を浮き彫りにした。
- 参考スコア(独自算出の注目度): 38.36264873832655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used to generate narrative content, including children's stories, which play an important role in social and cultural learning. Despite growing interest in AI safety and alignment, most existing evaluations focus primarily on English, leaving the cross-lingual generalization of aligned behavior underexplored. In this work, we introduce BiasedTales-ML, a large-scale parallel corpus of approximately 350,000 children's stories generated across eight typologically and culturally diverse languages using a full-permutation prompting design. We propose a structured generator-extractor pipeline and a multi-dimensional distributional analysis framework to examine how narrative attributes vary across languages, models, and social conditions. Our analysis reveals substantial cross-lingual variability in narrative generation patterns, indicating that distributions observed in English do not always exhibit similar characteristics in other languages, particularly in lower-resource settings. At the narrative level, we identify recurring structural patterns involving character roles, settings, and thematic emphasis, which manifest differently across linguistic contexts. These findings highlight the limitations of English-centric evaluation for characterizing socially grounded narrative generation in multilingual settings. We release the dataset, code, and an interactive visualization tool to support future research on multilingual narrative analysis and evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会や文化の学習において重要な役割を果たす子供の物語を含む物語のコンテンツを生成するために、ますます使われてきている。
AIの安全性とアライメントへの関心が高まっているにもかかわらず、既存の評価のほとんどは英語に重点を置いており、アライメントされた行動の言語横断的な一般化は未調査のままである。
本研究では,8つの型型的・文化的多様言語にまたがる,約35万の児童話の大規模並列コーパスであるBiasedTales-MLを紹介する。
本研究では, 言語, モデル, 社会的条件によって, 物語の属性がどのように異なるかを検討するために, 構造的ジェネレータ・エクストラクタ・パイプラインと多次元分布解析フレームワークを提案する。
分析の結果,ナラティブ生成パターンの言語間差異は顕著であり,特に低資源環境において,英語で観察される分布が他の言語に類似した特徴を示すとは限らないことが示唆された。
物語のレベルでは、言語的文脈によって異なる性格的役割、設定、主題的強調を含む繰り返し構造パターンを識別する。
これらの知見は、多言語環境下での社会的基盤の物語生成を特徴付けるための英語中心の評価の限界を浮き彫りにした。
このデータセット、コード、インタラクティブな可視化ツールを公開し、多言語物語の分析と評価の今後の研究を支援する。
関連論文リスト
- When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - Decoding Memes: Benchmarking Narrative Role Classification across Multilingual and Multimodal Models [26.91963265869296]
本研究は,インターネットミームにおける物語的役割の特定という課題について考察する。
元々は'他'クラスにスキューされたアノテーション付きデータセットの上に構築される。
包括的語彙および構造解析は、実際のミームで使われるニュアンス、文化特化、文脈に富んだ言語を強調している。
論文 参考訳(メタデータ) (2025-06-29T07:12:11Z) - Examining Multilingual Embedding Models Cross-Lingually Through LLM-Generated Adversarial Examples [29.62231663945077]
本稿では,並列文のみを必要とする軽量な評価タスクである言語間セマンティック識別(D)と,対向的気晴らしを生成するLarge Language Model(LLM)を導入する。
CLSDは、意味的に誤解を招くが、語彙的に類似した代替品の上に、真の並列文をランク付けする埋め込みモデルの能力を測定する。
我々の実験では、検索タスクに微調整されたモデルは、英語をピボットすることの恩恵を受ける一方、bitextマイニングモデルは、直接言語間設定で最高のパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-02-12T18:54:37Z) - Exploring the Maze of Multilingual Modeling [2.0849578298972835]
我々は,mBERT,XLM-R,GPT-3の3つの言語モデルについて総合評価を行った。
その結果,言語固有の事前学習データの量はモデル性能において重要な役割を担っているが,汎用リソースの可用性,言語ファミリ,スクリプトタイプといった他の要因も重要な特徴であることがわかった。
論文 参考訳(メタデータ) (2023-10-09T04:48:14Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。