論文の概要: Improving Multilingual Language Models by Aligning Representations through Steering
- arxiv url: http://arxiv.org/abs/2505.12584v1
- Date: Mon, 19 May 2025 00:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.325492
- Title: Improving Multilingual Language Models by Aligning Representations through Steering
- Title(参考訳): ステアリングによる表現のアライメントによる多言語言語モデルの改善
- Authors: Omar Mahmoud, Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana,
- Abstract要約: 大規模言語モデル(LLMS)は、非英語トークンを層表現内で処理する。
単一のモデルレイヤをステアリングすることで、パフォーマンスが著しく向上することを示す。
教師付き微調整(textscsft)や人的フィードバックからの強化学習といった高度な技術が多言語能力をどのように改善するかを強調した。
- 参考スコア(独自算出の注目度): 14.358813505154316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate how large language models (LLMS) process non-English tokens within their layer representations, an open question despite significant advancements in the field. Using representation steering, specifically by adding a learned vector to a single model layer's activations, we demonstrate that steering a single model layer can notably enhance performance. Our analysis shows that this approach achieves results comparable to translation baselines and surpasses state of the art prompt optimization methods. Additionally, we highlight how advanced techniques like supervised fine tuning (\textsc{sft}) and reinforcement learning from human feedback (\textsc{rlhf}) improve multilingual capabilities by altering representation spaces. We further illustrate how these methods align with our approach to reshaping LLMS layer representations.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLMS) が階層表現の中で非英語トークンをどのように処理するかを考察する。
具体的には,単一のモデルレイヤのアクティベーションに学習ベクトルを追加することで,単一のモデルレイヤをステアリングすることで,パフォーマンスが著しく向上することを示す。
解析の結果,本手法は翻訳ベースラインに匹敵する結果を達成し,最先端のプロンプト最適化手法を超越していることがわかった。
さらに、教師付き微調整(\textsc{sft})や人間からのフィードバックからの強化学習(\textsc{rlhf})といった高度な手法が、表現空間を変更することで多言語機能を改善するかを強調した。
さらに、これらのメソッドがLLMS層表現を再構成するアプローチとどのように一致しているかを説明します。
関連論文リスト
- LayAlign: Enhancing Multilingual Reasoning in Large Language Models via Layer-Wise Adaptive Fusion and Alignment Strategy [33.85811169010525]
LLM(Large Language Model)は、低リソース言語上での最適化性能を示す。
最近のアプローチでは、2つのモデルを接続するトレーニング可能なパラメータを導入することで、LLMと並行して多言語エンコーダを活用している。
すべてのエンコーダ層から表現を統合するフレームワークであるanameを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:45:03Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的プロンプトを注入する学習自由手法を提案する。
我々は,エネルギー関数に基づいて学習可能な潜伏変数を最適化し,注目マップにおける参照領域の強度を高める。
提案手法は,参照能力のMLLMへの統合に有望な方向を与え,ボックス,マスク,スクリブル,ポイントによる参照を支援する。
論文 参考訳(メタデータ) (2024-07-31T11:40:29Z) - Understanding the role of FFNs in driving multilingual behaviour in LLMs [0.0]
本稿では,大規模言語モデル群における多言語機能の詳細な分析を行う。
異なるレイヤにおけるモデルの多言語的振る舞いを探索する新しいメトリクスを導入し、多言語処理におけるアーキテクチャ選択の影響について光を当てる。
論文 参考訳(メタデータ) (2024-04-22T03:47:00Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - DPL: Decoupled Prompt Learning for Vision-Language Models [41.90997623029582]
本稿では,この問題を緩和するために,学習者の注意を再構築する新しい手法,Decoupled Prompt Learningを提案する。
我々のアプローチは、視覚的・テキスト的モダリティの両方に柔軟であり、マルチモーダル・プロンプト・ラーニングに容易に拡張できる。
論文 参考訳(メタデータ) (2023-08-19T15:48:38Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。