Fugu-MT 論文翻訳(概要): ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework

論文の概要: ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework

arxiv url: http://arxiv.org/abs/2410.19453v2
Date: Wed, 06 Nov 2024 11:49:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.361932
Title: ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Contrastive Framework
Title（参考訳）: ShifCon: シフトベースのコントラストフレームワークによる非支配的言語機能向上
Authors: Hengyuan Zhang, Chenming Shang, Sizhe Wang, Dongdong Zhang, Renliang Sun, Yiyao Yu, Yujiu Yang, Furu Wei,
Abstract要約: ShifConはShiftベースのContrastiveフレームワークで、他の言語の内部の前進プロセスを支配的な言語に合わせる。非支配的な言語の表現を支配的な言語サブスペースに移行し、モデルパラメータにエンコードされた比較的リッチな情報にアクセスできるようにする。実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
参考スコア（独自算出の注目度）: 79.72910257530795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although fine-tuning Large Language Models (LLMs) with multilingual data can rapidly enhance the multilingual capabilities of LLMs, they still exhibit a performance gap between the dominant language (e.g., English) and non-dominant ones due to the imbalance of training data across languages. To further enhance the performance of non-dominant languages, we propose ShifCon, a Shift-based Contrastive framework that aligns the internal forward process of other languages toward that of the dominant one. Specifically, it shifts the representations of non-dominant languages into the dominant language subspace, allowing them to access relatively rich information encoded in the model parameters. The enriched representations are then shifted back into their original language subspace before generation. Moreover, we introduce a subspace distance metric to pinpoint the optimal layer area for shifting representations and employ multilingual contrastive learning to further enhance the alignment of representations within this area. Experiments demonstrate that our ShifCon framework significantly enhances the performance of non-dominant languages, particularly for low-resource ones. Further analysis offers extra insights to verify the effectiveness of ShifCon and propel future research
Abstract（参考訳）: 多言語データを用いた微調整大型言語モデル(LLM)は、LLMの多言語能力を急速に向上させることができるが、言語間のトレーニングデータの不均衡により、支配的な言語(例えば、英語)と非支配的な言語の間には、パフォーマンスのギャップがまだ残っている。非支配言語の性能をさらに向上させるために、シフトベースのコントラストフレームワークであるShifConを提案する。具体的には、非支配的な言語の表現を支配的な言語サブスペースにシフトさせ、モデルパラメータに符号化された比較的リッチな情報にアクセスできるようにする。リッチな表現は、生成前に元の言語サブスペースに戻される。さらに,この領域内の表現のアライメントをさらに高めるために,表現のシフトに最適な層領域をピンポイントし,多言語コントラスト学習を採用するために,部分空間距離メトリックを導入する。実験により、SifConフレームワークは、特に低リソース言語において、非支配言語の性能を大幅に向上させることが示された。さらなる分析によりShifConの有効性を検証し、今後の研究を推進できる

関連論文リスト

Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders [51.380449540006985]
大規模言語モデル(LLM)は多くの言語を処理できるが、どのようにして内部的にこの多様性を表現しているのかは不明だ。言語固有のデコーディングと多言語表現を共有できるのでしょうか? 層間トランスコーダ(CLT)と属性グラフを用いて内部メカニズムを解析する。
論文参考訳（メタデータ） (2025-11-13T22:51:06Z)
LangGPS: Language Separability Guided Data Pre-Selection for Joint Multilingual Instruction Tuning [49.22807995935406]
大規模言語モデル(LLM)の多言語命令追従能力と下流性能を改善するための多言語命令チューニングは広く採用されている手法である。既存の選択法は、しばしばテキストの品質、多様性、タスク関連性といった特徴に基づいており、典型的には多言語データの固有の言語構造を見落としている。言語分離性によって導かれる軽量な2段階事前選択フレームワークであるLangGPSを提案する。
論文参考訳（メタデータ） (2025-11-13T12:02:32Z)
Language Surgery in Multilingual Large Language Models [32.77326546076424]
大規模言語モデル(LLM)はタスクや言語にまたがる顕著な一般化機能を示している。本稿では, LLMにおける自然に出現する表現アライメント, 特に中層における表現アライメントについて検討する。本稿では,言語間言語制御の高精度化と言語混乱を軽減するため,ITLC(Inference-Time Language Control)を提案する。
論文参考訳（メタデータ） (2025-06-14T11:09:50Z)
When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文参考訳（メタデータ） (2025-05-21T08:35:05Z)
Improving Multilingual Language Models by Aligning Representations through Steering [10.159957091670883]
本稿では,Large Language Models (LLM) が非英語トークンをどのように表現するかを検討する。表現ステアリングを用いた軽量な介入手法を提案し、学習ベクトルを1つのモデル層における残差ストリームに追加し、多言語性能を向上させる。
論文参考訳（メタデータ） (2025-05-19T00:14:43Z)
Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文参考訳（メタデータ） (2025-04-02T15:09:58Z)
High-Dimensional Interlingual Representations of Large Language Models [65.77317753001954]
大規模言語モデル(LLM)は、多言語データセットに基づいて訓練され、言語間構造の形成を示唆する。資源レベル, 類型, 地理的地域によって異なる31の多様な言語を探索する。多言語 LLM は非一貫性な言語間アライメントを示す。
論文参考訳（メタデータ） (2025-03-14T10:39:27Z)
Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs [20.756383171892608]
中層は言語間アライメントの可能性が強い。スロットフィリング、機械翻訳、構造化テキスト生成の実験は、言語間転送における一貫した改善を示している。我々は、個別に訓練されたアライメントモジュールを既存のタスク固有のモジュールとマージすることができ、完全に再トレーニングすることなく言語間の機能を改善することを示す。
論文参考訳（メタデータ） (2025-02-20T18:45:43Z)
XTransplant: A Probe into the Upper Bound Performance of Multilingual Capability and Culture Adaptability in LLMs via Mutual Cross-lingual Feed-forward Transplantation [49.69780199602105]
現在の大規模言語モデル(LLM)は多言語能力と文化的適応性に不均衡を示すことが多い。本稿では,言語間フィードフォワード移植による言語間遅延相互作用を探索するXTransplantという探索手法を提案する。我々は,LLMの多言語能力と文化的適応性の両方が,XTransplantによって大幅に改善される可能性を持っていることを実証的に証明した。
論文参考訳（メタデータ） (2024-12-17T09:05:30Z)
Converging to a Lingua Franca: Evolution of Linguistic Regions and Semantics Alignment in Multilingual Large Language Models [11.423589362950812]
大規模言語モデル(LLM)は、特に多言語文脈において顕著な性能を示した。近年の研究では、LLMは、ある言語で学んだスキルを他の言語に伝達することができることが示唆されているが、この能力の背後にある内部メカニズムはいまだ不明である。本稿では,LLMの内部動作に関する知見を提供し,言語間能力の向上のための基盤を提供する。
論文参考訳（メタデータ） (2024-10-15T15:49:15Z)
Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文参考訳（メタデータ） (2024-10-06T08:51:30Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Towards Truthful Multilingual Large Language Models: Benchmarking and Alignment Strategies [38.3269908062146]
多言語シナリオにおける真理性評価のためのベンチマークを構築する。多数の言語にまたがるデータ割り当てを最適化するために,Fact-aware Multilingual Selective Synergy (FaMSS)を提案する。
論文参考訳（メタデータ） (2024-06-20T15:59:07Z)
Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。 LCGは学習効率において標準言語のみのモデルより優れている。 CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文参考訳（メタデータ） (2024-03-21T16:52:01Z)
Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文参考訳（メタデータ） (2023-11-14T11:24:08Z)
Romanization-based Large-scale Adaptation of Multilingual Language Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文参考訳（メタデータ） (2023-04-18T09:58:34Z)
Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文参考訳（メタデータ） (2021-07-27T06:51:13Z)
VECO: Variable and Flexible Cross-lingual Pre-training for Language Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文参考訳（メタデータ） (2020-10-30T03:41:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。