Fugu-MT 論文翻訳(概要): Improving Multilingual Language Models by Aligning Representations through Steering

論文の概要: Improving Multilingual Language Models by Aligning Representations through Steering

arxiv url: http://arxiv.org/abs/2505.12584v2
Date: Tue, 26 Aug 2025 02:13:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-27 15:23:52.333198
Title: Improving Multilingual Language Models by Aligning Representations through Steering
Title（参考訳）: ステアリングによる表現のアライメントによる多言語言語モデルの改善
Authors: Omar Mahmoud, Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana,
Abstract要約: 本稿では,Large Language Models (LLM) が非英語トークンをどのように表現するかを検討する。表現ステアリングを用いた軽量な介入手法を提案し、学習ベクトルを1つのモデル層における残差ストリームに追加し、多言語性能を向上させる。
参考スコア（独自算出の注目度）: 10.159957091670883
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates how Large Language Models (LLMs) represent non-English tokens - a question that remains underexplored despite recent progress. We propose a lightweight intervention method using representation steering, where a learned vector is added to the residual stream at a single model layer to enhance multilingual performance. Through extensive experiments across seven competitive baselines -including prompt optimization, supervised fine-tuning (SFT), in-context learning, cross-lingual transfer, and translation-based methods-we show that our approach consistently outperforms most alternatives. In particular, it achieves performance on par with production-grade translation systems while requiring far fewer resources. We further explore the complementarity between our method and SFT, demonstrating that steering offers a direct, efficient way to realign internal representations. These findings underscore the potential of activation-level interventions as a powerful tool for improving the multilingual capabilities of LLMs.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) が非英語トークンをどのように表現しているかを考察する。表現ステアリングを用いた軽量な介入手法を提案し、学習ベクトルを1つのモデル層における残差ストリームに追加し、多言語性能を向上させる。迅速な最適化,教師付き微調整(SFT),コンテキスト内学習,言語間移動,翻訳に基づく手法など,競争力のある7つのベースラインにまたがる広範な実験を通じて,我々のアプローチがほとんどの選択肢を一貫して上回ることを示す。特に、プロダクショングレードの翻訳システムと同等のパフォーマンスを達成し、リソースをはるかに少なくする。さらに、本手法とSFTの相補性について検討し、ステアリングが内部表現を具現化するための直接的かつ効率的な方法であることを示す。これらの知見は, LLMの多言語機能向上のための強力なツールとして, アクティベーションレベルの介入の可能性を明らかにするものである。

関連論文リスト

CC-Tuning: A Cross-Lingual Connection Mechanism for Improving Joint Multilingual Supervised Fine-Tuning [48.69343479132896]
CC-Tuningは、多言語間接続機構を潜在レベルで明確に確立する、新しい多言語ファインチューニングパラダイムである。訓練中、CC-Tuningは英語と非英語の両方からのフィードフォワードアクティベーションを融合させ、モデルが両方の言語資源の恩恵を受けることを可能にする。 22の言語をカバーする6つのベンチマークの実験では、CC-TuningはバニラSFTより優れており、データレベルの拡張方法に代わる強力な潜在レベルを提供する。
論文参考訳（メタデータ） (2025-06-01T07:20:55Z)
Semantic Aware Linear Transfer by Recycling Pre-trained Language Models for Cross-lingual Transfer [5.990773821761297]
SALTは、ターゲット言語からの埋め込みをリサイクルする新しい言語間移動技術である。実験の結果,SALTは他のトランスファー手法よりも優れており,言語適応時の収束の高速化による損失の低減が期待できることがわかった。
論文参考訳（メタデータ） (2025-05-16T07:30:22Z)
LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文参考訳（メタデータ） (2025-02-17T03:45:03Z)
Improving In-Context Learning with Small Language Model Ensembles [2.3499129784547654]
In-context Learning (ICL) は安価で効率的な代替手段であるが、高度な手法の精度と一致しない。本稿では,複数の微調整小言語モデル(SLM)の専門知識を活用することでICLを強化する新しいアプローチであるEnsemble SuperICLを提案する。
論文参考訳（メタデータ） (2024-10-29T09:02:37Z)
ShifCon: Enhancing Non-Dominant Language Capabilities with a Shift-based Multilingual Contrastive Framework [78.07201802874529]
ShifConはシフトベースの多言語コントラストフレームワークで、他の言語の内部のフォワードプロセスを支配的な言語に合わせる。実験により、我々のShifConフレームワークは、非支配言語の性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-10-25T10:28:59Z)
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。 LLMは異なる言語間で大きな性能差を示す。 Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文参考訳（メタデータ） (2024-10-16T11:23:03Z)
EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文参考訳（メタデータ） (2024-09-25T08:22:00Z)
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-08-09T02:16:37Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文参考訳（メタデータ） (2024-04-22T03:47:00Z)
A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。 SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文参考訳（メタデータ） (2024-04-17T11:52:47Z)
Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-03-05T13:45:46Z)
Analyzing and Adapting Large Language Models for Few-Shot Multilingual NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文参考訳（メタデータ） (2024-03-04T10:48:13Z)
Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。この統合により、MLLMの画像のより詳細な理解が促進される。本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文参考訳（メタデータ） (2023-08-25T15:33:47Z)
DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文参考訳（メタデータ） (2023-08-19T15:48:38Z)
Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-09T04:52:31Z)
On the cross-lingual transferability of multilingual prototypical models across NLU tasks [2.44288434255221]
教師付きディープラーニングベースのアプローチはタスク指向のダイアログに適用され、限られたドメインや言語アプリケーションに有効であることが証明されている。実際には、これらのアプローチはドメイン駆動設計とアンダーリソース言語の欠点に悩まされている。本稿では,原型ニューラルネットワークと多言語トランスフォーマーモデルを用いた相乗的少数ショット学習の言語間変換可能性について検討する。
論文参考訳（メタデータ） (2022-07-19T09:55:04Z)
Incorporating Linguistic Knowledge for Abstractive Multi-document Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。依存関係情報を言語誘導型注意機構に処理する。言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文参考訳（メタデータ） (2021-09-23T08:13:35Z)
SLM: Learning a Discourse Language Representation with Sentence Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2020-10-30T13:33:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。