論文の概要: Assessing Agentic Large Language Models in Multilingual National Bias
- arxiv url: http://arxiv.org/abs/2502.17945v2
- Date: Wed, 06 Aug 2025 04:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 15:43:07.91148
- Title: Assessing Agentic Large Language Models in Multilingual National Bias
- Title(参考訳): 多言語国立バイアスにおけるエージェント型大規模言語モデルの評価
- Authors: Qianying Liu, Katrina Qiyao Wang, Fei Cheng, Sadao Kurohashi,
- Abstract要約: 推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
- 参考スコア(独自算出の注目度): 31.67058518564021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have garnered significant attention for their capabilities in multilingual natural language processing, while studies on risks associated with cross biases are limited to immediate context preferences. Cross-language disparities in reasoning-based recommendations remain largely unexplored, with a lack of even descriptive analysis. This study is the first to address this gap. We test LLM's applicability and capability in providing personalized advice across three key scenarios: university applications, travel, and relocation. We investigate multilingual bias in state-of-the-art LLMs by analyzing their responses to decision-making tasks across multiple languages. We quantify bias in model-generated scores and assess the impact of demographic factors and reasoning strategies (e.g., Chain-of-Thought prompting) on bias patterns. Our findings reveal that local language bias is prevalent across different tasks, with GPT-4 and Sonnet reducing bias for English-speaking countries compared to GPT-3.5 but failing to achieve robust multilingual alignment, highlighting broader implications for multilingual AI agents and applications such as education. \footnote{Code available at: https://github.com/yiyunya/assess_agentic_national_bias
- Abstract(参考訳): 大規模言語モデルは、多言語自然言語処理におけるそれらの能力に対して大きな注目を集めている一方、クロスバイアスに関連するリスクの研究は、即時文脈優先に限られている。
推論に基づくレコメンデーションにおける言語間の格差は、説明的分析が欠如しているため、ほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
我々は、大学応用、旅行、転校の3つの主要なシナリオでパーソナライズされたアドバイスを提供する上で、LCMの適用性と能力をテストする。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
モデル生成スコアのバイアスを定量化し、人口統計要因と推論戦略(例えば、Chain-of-Thought prompting)がバイアスパターンに与える影響を評価する。
GPT-4 と Sonnet は英語圏では GPT-3.5 と比較してバイアスを減少させるが,多言語AI エージェントや教育などの応用において,より広範な影響を浮き彫りにすることなく,頑健な多言語アライメントを達成できなかった。
https://github.com/yiyunya/assess_agentic_national_bias
関連論文リスト
- Learn Globally, Speak Locally: Bridging the Gaps in Multilingual Reasoning [38.52080213211765]
ジオファクトX(GeoFact-X)は、5つの言語で注釈付き推論トレースを持つ地理ベースの多言語事実推論ベンチマークである。
本稿では,教師付き微調整およびテスト時間強化学習を指導する新しいトレーニング手法BRIDGEを提案する。
その結果,BRIDGEは多言語推論の忠実度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-07T19:04:36Z) - Delving into Multilingual Ethical Bias: The MSQAD with Statistical Hypothesis Tests for Large Language Models [7.480124826347168]
本稿では,世界規模で議論され,潜在的にセンシティブなトピックに対するLLMの倫理的バイアスの妥当性と比較について検討する。
我々は、Human Rights Watchから17のトピックに関するニュース記事を収集し、複数の言語で対応する回答とともに、社会的に敏感な質問を生成した。
我々は2つの統計的仮説テストを用いて、これらの応答のバイアスを言語やトピックにわたって精査した。
論文 参考訳(メタデータ) (2025-05-25T12:25:44Z) - Language Matters: How Do Multilingual Input and Reasoning Paths Affect Large Reasoning Models? [59.970391602080205]
多言語トレーニングにも拘わらず、LRMはテスト時に高リソース言語での推論をデフォルトとする傾向にある。
文化的推論は、推論タスクのパフォーマンスを低下させるが、文化的なタスクに恩恵を与える一方、安全性評価は言語固有の振る舞いを示す。
論文 参考訳(メタデータ) (2025-05-23T02:46:18Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Crosslingual Reasoning through Test-Time Scaling [51.55526326294275]
英語中心の推論言語モデル(RLM)に対する推論計算のスケールアップは、多くの言語における多言語数学的推論を改善する。
英語中心の RLM の CoT は自然に英語が主流であるが、引用された非英語入力を推論するための引用と思考のパターンは一貫して従っている。
我々は、ドメイン外推論の一般化、特にSTEMから文化常識の知識まで、英語においても、貧弱なドメイン外推論の一般化を観察する。
論文 参考訳(メタデータ) (2025-05-08T16:50:06Z) - Bias Beyond English: Evaluating Social Bias and Debiasing Methods in a Low-Resource Setting [8.478711218359532]
言語モデルにおける社会的偏見は、社会的不平等を悪化させる可能性がある。
本研究では,ハイリソース言語コーパスを利用してバイアス評価を行い,低リソース言語におけるデバイアス手法の実験を行う。
論文 参考訳(メタデータ) (2025-04-15T13:40:22Z) - Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources [12.54580975652981]
大規模言語モデル(LLM)は、言語間での性能に大きな違いがある。
CPT(Continuous Pretraining)はこの不均衡に対処するための有望なアプローチとして現れている。
本研究は3つの多言語ベースモデルを含む36のCPT構成を体系的に評価する。
論文 参考訳(メタデータ) (2025-04-05T12:10:55Z) - The Multilingual Mind : A Survey of Multilingual Reasoning in Language Models [18.399229357408043]
多言語推論は言語間の論理的推論を扱うために言語モデルを必要とする。
この調査は、言語モデルにおける多言語推論に関する、最初の詳細なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-13T16:25:16Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - On Evaluating and Mitigating Gender Biases in Multilingual Settings [5.248564173595024]
複数言語設定におけるバイアスの評価と緩和に関する課題について検討する。
まず,事前学習したマスキング言語モデルにおいて,性別バイアスを評価するベンチマークを作成する。
我々は、様々なデバイアス法を英語以上に拡張し、SOTAの大規模多言語モデルの有効性を評価する。
論文 参考訳(メタデータ) (2023-07-04T06:23:04Z) - Language-Agnostic Bias Detection in Language Models with Bias Probing [22.695872707061078]
プレトレーニング言語モデル(PLM)はNLPの主要な構成要素であるが、強い社会的バイアスを含んでいる。
本研究では,PAMにおける社会的バイアスを頑健かつ言語に依存しない方法で評価するための,LABDetと呼ばれるバイアス探索手法を提案する。
歴史的・政治的文脈に整合した6つの言語において,一貫した民族性バイアスパターンがモノリンガル PLM にまたがっていることがわかった。
論文 参考訳(メタデータ) (2023-05-22T17:58:01Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。