論文の概要: Rethinking Cross-lingual Gaps from a Statistical Viewpoint
- arxiv url: http://arxiv.org/abs/2510.15551v1
- Date: Fri, 17 Oct 2025 11:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.595667
- Title: Rethinking Cross-lingual Gaps from a Statistical Viewpoint
- Title(参考訳): 統計的観点からの言語間ギャップの再考
- Authors: Vihari Piratla, Purvam Jain, Darshan Singh, Partha Talukdar, Trevor Cohn,
- Abstract要約: 大きな言語モデル(LLM)は、ソース言語からの知識を取得し、ターゲット言語からのクエリ時にアクセス可能にすることで、ブリッジとして機能する。
これまでの研究では、言語間ギャップ(viz.)が指摘されており、クエリがソース言語にある場合と比較して、ターゲット言語で知識がクエリされた場合の精度の低下である。
対象言語における応答のばらつきが,このギャップの主な原因であると仮定する。
- 参考スコア(独自算出の注目度): 24.938886584535926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Any piece of knowledge is usually expressed in one or a handful of natural languages on the web or in any large corpus. Large Language Models (LLMs) act as a bridge by acquiring knowledge from a source language and making it accessible when queried from target languages. Prior research has pointed to a cross-lingual gap, viz., a drop in accuracy when the knowledge is queried in a target language compared to when the query is in the source language. Existing research has rationalized divergence in latent representations in source and target languages as the source of cross-lingual gap. In this work, we take an alternative view and hypothesize that the variance of responses in the target language is the main cause of this gap. For the first time, we formalize the cross-lingual gap in terms of bias-variance decomposition. We present extensive experimental evidence which support proposed formulation and hypothesis. We then reinforce our hypothesis through multiple inference-time interventions that control the variance and reduce the cross-lingual gap. We demonstrate a simple prompt instruction to reduce the response variance, which improved target accuracy by 20-25% across different models.
- Abstract(参考訳): 知識のあらゆる部分は、通常、Web上の1つまたは少数の自然言語または大きなコーパスで表現される。
大きな言語モデル(LLM)は、ソース言語からの知識を取得し、ターゲット言語からのクエリ時にアクセス可能にすることで、ブリッジとして機能する。
これまでの研究では、言語間ギャップ(viz.)が指摘されており、クエリがソース言語にある場合と比較して、ターゲット言語で知識がクエリされた場合の精度の低下である。
既存の研究は、言語間ギャップの源として、ソースおよびターゲット言語における潜在表現の分岐を合理化してきた。
そこで本研究では,対象言語における応答のばらつきが,このギャップの主な原因であると仮定する。
初めて、偏差分解の観点で言語間ギャップを定式化する。
提案する定式化と仮説を支持する広範な実験的証拠を提示する。
次に、分散を制御し、言語間ギャップを減らす複数の推論時間介入を通して仮説を補強する。
応答のばらつきを低減し、異なるモデル間で目標精度を20-25%向上させる簡単なプロンプト命令を実証する。
関連論文リスト
- Assessing Agentic Large Language Models in Multilingual National Bias [31.67058518564021]
推論に基づくレコメンデーションにおける言語間の格差はほとんど未解明のままである。
この研究は、このギャップに最初に対処する。
複数の言語にわたる意思決定タスクに対する応答を解析することにより、最先端のLLMにおける多言語バイアスについて検討する。
論文 参考訳(メタデータ) (2025-02-25T08:07:42Z) - Zero-shot Cross-lingual Stance Detection via Adversarial Language Adaptation [7.242609314791262]
本稿では,ゼロショット言語間スタンス検出,多言語翻訳拡張BERT (MTAB) に対する新しいアプローチを提案する。
本手法では,ゼロショット性能を向上させるために翻訳拡張を用い,モデルの有効性をさらに向上するために,対角学習と組み合わせる。
提案手法の有効性を実証し,強力なベースラインモデルと改良されたモデルとの比較を行った。
論文 参考訳(メタデータ) (2024-04-22T16:56:43Z) - Measuring Cross-lingual Transfer in Bytes [9.011910726620538]
多様な言語からのモデルが、言語横断的な設定で対象言語と類似して動作することを示す。
また,この移行が言語汚染や言語近接と関係がないという証拠も発見された。
我々の実験は、事前学習中に学習した言語に依存しない表現の量を測定する新しい可能性を開いた。
論文 参考訳(メタデータ) (2024-04-12T01:44:46Z) - Lost in Translation -- Multilingual Misinformation and its Evolution [52.07628580627591]
本稿では,95言語にまたがる25万以上のファクトチェックの分析を通じて,多言語誤報の頻度とダイナミクスについて検討する。
誤報のクレームの大部分は1回だけ事実チェックされているが、21,000件以上のクレームに対応する11.7%は複数回チェックされている。
誤情報拡散のプロキシとしてファクトチェックを用いると、言語境界を越えて繰り返し主張する主張の33%が見つかる。
論文 参考訳(メタデータ) (2023-10-27T12:21:55Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Counterfactual VQA: A Cause-Effect Look at Language Bias [117.84189187160005]
VQAモデルは、ショートカットとして言語バイアスに依存し、視覚と言語の両方からマルチモーダルな知識を十分に学ばない傾向にある。
本稿では,質問に対する直接的な因果的影響として,言語バイアスを捉えることのできる,新たな反事実推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-08T01:49:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。