論文の概要: IndRegBias: A Dataset for Studying Indian Regional Biases in English and Code-Mixed Social Media Comments
- arxiv url: http://arxiv.org/abs/2601.06477v1
- Date: Sat, 10 Jan 2026 08:13:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.838967
- Title: IndRegBias: A Dataset for Studying Indian Regional Biases in English and Code-Mixed Social Media Comments
- Title(参考訳): IndRegBias: 英語とコードミクスによるソーシャルメディアコメントにおけるインド地域バイアス研究データセット
- Authors: Debasmita Panda, Akash Anil, Neelesh Kumar Shukla,
- Abstract要約: 本稿では,人気のソーシャルメディアプラットフォームに対するユーザのコメントに反映されたインドの文脈における地域バイアスからなるデータセットIndRegBiasの作成に焦点をあてる。
RedditのさまざまなスレッドやYouTubeのビデオで、インドの地域問題に関するトレンドについて、25,000のコメントを慎重に選びました。
IndRegBiasにおける地域バイアスの存在とその重症度を検出するため,ゼロショット,少数ショット,微調整戦略を用いて,オープンソースのLarge Language Models (LLMs) とIndic Language Models (ILMs) を評価した。
- 参考スコア(独自算出の注目度): 0.1749935196721634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Warning: This paper consists of examples representing regional biases in Indian regions that might be offensive towards a particular region. While social biases corresponding to gender, race, socio-economic conditions, etc., have been extensively studied in the major applications of Natural Language Processing (NLP), biases corresponding to regions have garnered less attention. This is mainly because of (i) difficulty in the extraction of regional bias datasets, (ii) disagreements in annotation due to inherent human biases, and (iii) regional biases being studied in combination with other types of social biases and often being under-represented. This paper focuses on creating a dataset IndRegBias, consisting of regional biases in an Indian context reflected in users' comments on popular social media platforms, namely Reddit and YouTube. We carefully selected 25,000 comments appearing on various threads in Reddit and videos on YouTube discussing trending topics on regional issues in India. Furthermore, we propose a multilevel annotation strategy to annotate the comments describing the severity of regional biased statements. To detect the presence of regional bias and its severity in IndRegBias, we evaluate open-source Large Language Models (LLMs) and Indic Language Models (ILMs) using zero-shot, few-shot, and fine-tuning strategies. We observe that zero-shot and few-shot approaches show lower accuracy in detecting regional biases and severity in the majority of the LLMs and ILMs. However, the fine-tuning approach significantly enhances the performance of the LLM in detecting Indian regional bias along with its severity.
- Abstract(参考訳): 警告: 本論文は, ある地域に対して攻撃的である可能性のあるインド地域の地域バイアスを表す例から構成する。
ジェンダー、人種、社会経済的条件等に対応する社会的バイアスは、自然言語処理(NLP)の分野で広く研究されているが、地域に応じたバイアスは、あまり注目されていない。
主な原因は
一 地域バイアスデータセットの抽出の難しさ
(二)本質的な人間の偏見による注釈の不一致、及び
(3)他のタイプの社会的偏見と組み合わせて研究される地域的偏見は、しばしば表現不足である。
IndRegBiasは、人気のソーシャルメディアプラットフォーム(RedditとYouTube)におけるユーザのコメントに反映されたインドの文脈における地域バイアスからなるデータセットを作成することに焦点を当てる。
RedditのさまざまなスレッドやYouTubeのビデオで、インドの地域問題に関するトレンドについて、25,000のコメントを慎重に選びました。
さらに,地域バイアス文の重大さを記述したコメントに注釈を付けるための多段階アノテーション戦略を提案する。
IndRegBiasにおける地域バイアスの存在とその重症度を検出するため,ゼロショット,少数ショット,微調整戦略を用いて,オープンソースのLarge Language Models (LLMs) とIndic Language Models (ILMs) を評価した。
ゼロショット, 少数ショットのアプローチは, LLM および ILM の大多数において, 局所バイアスや重症度を検出する精度が低いことを観察した。
しかし、細調整アプローチは、その重症度とともにインド地域の偏見を検出する際のLLMの性能を著しく向上させる。
関連論文リスト
- IndiCASA: A Dataset and Bias Evaluation Framework in LLMs Using Contrastive Embedding Similarity in the Indian Context [10.90604216960609]
大きな言語モデル(LLM)は、その印象的なコンテキスト理解と生成能力によって、重要なドメイン間で大きな牽引力を得ています。
類似度を埋め込むことにより,微粒なバイアスを捕捉するコントラスト学習を用いて学習したエンコーダに基づく評価フレームワークを提案する。
IndiBiasをベースとしたコンテキストアライメントされたステレオタイプとアンチステレオタイプ) は,5つの人口動態軸にまたがる2,575の人文から構成される。
論文 参考訳(メタデータ) (2025-10-03T06:03:26Z) - Geopolitical biases in LLMs: what are the "good" and the "bad" countries according to contemporary language models [52.00270888041742]
我々は、中立なイベント記述と異なる国からの視点を対比した新しいデータセットを導入する。
以上の結果から,特定の民族的物語のモデルが好まれる,重要な地政学的偏見がみられた。
単純なデバイアスのプロンプトはこれらのバイアスを減らすのに限られた効果があった。
論文 参考訳(メタデータ) (2025-06-07T10:45:17Z) - What's Not Said Still Hurts: A Description-Based Evaluation Framework for Measuring Social Bias in LLMs [8.219247185418821]
大規模言語モデル(LLM)は、しばしばトレーニングデータから受け継がれた社会的バイアスを示す。
本稿では、意味レベルでバイアスを評価するために設計された新しいデータセットであるDescription-based Bias Benchmark(DBB)を紹介する。
我々は6つの最先端LCMを分析し、モデルが項レベルでの応答バイアスを減少させる一方で、微妙な設定でバイアスを補強し続けていることを明らかにした。
論文 参考訳(メタデータ) (2025-02-27T04:25:54Z) - Social Bias in Large Language Models For Bangla: An Empirical Study on Gender and Religious Bias [2.98683507969764]
大言語モデルに埋め込まれた様々な種類のバイアスの影響を評価して、センシティブな分野における公正な利用を保証することが重要である。
英語には偏見評価に関する広範な研究があるが、バングラ語のような主要言語にとって、そのような取り組みは稀で不十分である。
これは、バングラのLLMのバイアス評価を私たちの知識の最大限に活用する、この種の研究としては初めてのものです。
論文 参考訳(メタデータ) (2024-07-03T22:45:36Z) - Large Language Models are Geographically Biased [47.88767211956144]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Indian-BhED: A Dataset for Measuring India-Centric Biases in Large Language Models [18.201326983938014]
大規模言語モデル(LLM)は社会的バイアスを符号化し、ユーザを表現上の害に晒す。
本研究は,LLMにおけるステレオタイプバイアスを,そのタイプデータセットであるIndian-BhEDを用いて,インド中心のフレームに従って定量化する。
テストされたLLMの大多数は、インドの文脈でステレオタイプを出力する確率が強いことが判明した。
論文 参考訳(メタデータ) (2023-09-15T17:38:41Z) - HERB: Measuring Hierarchical Regional Bias in Pre-trained Language
Models [33.0987914452712]
言語モデル(LM)における地域バイアスは、長年の世界的な差別問題である。
本稿では,事前学習した言語モデルから得られた地域バイアスを分析し,そのギャップを埋める。
本研究では,HyErarchical Regional Bias Evaluation法(HERB)を提案する。
論文 参考訳(メタデータ) (2022-11-05T11:30:57Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z) - Towards Controllable Biases in Language Generation [87.89632038677912]
本研究では、特定の人口集団の言及を含む入力プロンプトによって生成されたテキストの社会的バイアスを誘導する手法を開発した。
1 つの人口統計学において負のバイアスを誘発し、もう1 つの人口統計学において正のバイアスを誘導し、2 つのシナリオを分析する。
論文 参考訳(メタデータ) (2020-05-01T08:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。