論文の概要: CLaS-Bench: A Cross-Lingual Alignment and Steering Benchmark
- arxiv url: http://arxiv.org/abs/2601.08331v1
- Date: Tue, 13 Jan 2026 08:42:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.11999
- Title: CLaS-Bench: A Cross-Lingual Alignment and Steering Benchmark
- Title(参考訳): CLaS-Bench: 言語間のアライメントとステアリングベンチマーク
- Authors: Daniil Gurgurov, Yusser Al Ghussin, Tanja Baeumel, Cheng-Ting Chou, Patrick Schramowski, Marius Mosbach, Josef van Genabith, Simon Ostermann,
- Abstract要約: CLaS-Benchは,32言語にわたる大規模言語モデル(LLM)における言語強制行動を評価するベンチマークである。
単純な残差ベースのDiffMeanメソッドは、他のすべてのメソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 21.574271160875046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and controlling the behavior of large language models (LLMs) is an increasingly important topic in multilingual NLP. Beyond prompting or fine-tuning, , i.e.,~manipulating internal representations during inference, has emerged as a more efficient and interpretable technique for adapting models to a target language. Yet, no dedicated benchmarks or evaluation protocols exist to quantify the effectiveness of steering techniques. We introduce CLaS-Bench, a lightweight parallel-question benchmark for evaluating language-forcing behavior in LLMs across 32 languages, enabling systematic evaluation of multilingual steering methods. We evaluate a broad array of steering techniques, including residual-stream DiffMean interventions, probe-derived directions, language-specific neurons, PCA/LDA vectors, Sparse Autoencoders, and prompting baselines. Steering performance is measured along two axes: language control and semantic relevance, combined into a single harmonic-mean steering score. We find that across languages simple residual-based DiffMean method consistently outperforms all other methods. Moreover, a layer-wise analysis reveals that language-specific structure emerges predominantly in later layers and steering directions cluster based on language family. CLaS-Bench is the first standardized benchmark for multilingual steering, enabling both rigorous scientific analysis of language representations and practical evaluation of steering as a low-cost adaptation alternative.
- Abstract(参考訳): 大規模言語モデル(LLM)の振る舞いの理解と制御は、多言語NLPにおいてますます重要になっているトピックである。
推論中に内部表現を操作するようなプロンプトや微調整以外にも、ターゲット言語にモデルを適用するためのより効率的で解釈可能な手法として登場した。
しかし、ステアリング技術の有効性を定量化する専用のベンチマークや評価プロトコルは存在しない。
CLaS-Benchは、32言語にわたるLLMにおける言語強制行動を評価するための軽量並列探索ベンチマークであり、多言語ステアリング手法の体系的評価を可能にする。
我々は,残差ストリームDiffMean介入,プローブ由来の方向,言語特異的ニューロン,PCA/LDAベクトル,スパースオートエンコーダ,ベースラインの促進など,幅広いステアリング手法の評価を行った。
ステアリング性能は、言語制御と意味的関連性という2つの軸に沿って測定され、単一のハーモニック平均ステアリングスコアに組み合わされる。
単純な残差ベースのDiffMeanメソッドは、他のすべてのメソッドよりも一貫して優れています。
さらに, 層構造解析により, 言語固有の構造が後層に主に出現し, 言語ファミリに基づく操舵方向クラスタが形成されることが明らかになった。
CLaS-Benchは、多言語ステアリングのための最初の標準ベンチマークであり、言語表現の厳密な科学的分析と、低コストな適応代替手段としてのステアリングの実践的評価の両方を可能にする。
関連論文リスト
- LangGPS: Language Separability Guided Data Pre-Selection for Joint Multilingual Instruction Tuning [49.22807995935406]
大規模言語モデル(LLM)の多言語命令追従能力と下流性能を改善するための多言語命令チューニングは広く採用されている手法である。
既存の選択法は、しばしばテキストの品質、多様性、タスク関連性といった特徴に基づいており、典型的には多言語データの固有の言語構造を見落としている。
言語分離性によって導かれる軽量な2段階事前選択フレームワークであるLangGPSを提案する。
論文 参考訳(メタデータ) (2025-11-13T12:02:32Z) - Language steering in latent space to mitigate unintended code-switching [1.1330938617817454]
大きな言語モデル(LLM)は意図しないコードスイッチングを示し、下流タスクの信頼性を低下させる。
並列翻訳におけるPCAによる言語方向を識別する軽量な推論時間法である潜在空間言語ステアリングを提案する。
提案手法は,計算オーバーヘッドの少ないセマンティクスを保ちながら,コードスイッチングを緩和する。
論文 参考訳(メタデータ) (2025-10-11T19:49:38Z) - Improving Multilingual Language Models by Aligning Representations through Steering [10.159957091670883]
本稿では,Large Language Models (LLM) が非英語トークンをどのように表現するかを検討する。
表現ステアリングを用いた軽量な介入手法を提案し、学習ベクトルを1つのモデル層における残差ストリームに追加し、多言語性能を向上させる。
論文 参考訳(メタデータ) (2025-05-19T00:14:43Z) - Investigating and Scaling up Code-Switching for Multilingual Language Model Pre-Training [58.696660064190475]
コンテクスト内の異なる言語間を交互に交換するコードスイッチの存在が、多言語機能の鍵であることに気付きました。
事前学習における言語アライメントのためのコードスイッチングのパワーをよりよく探求するために,合成コードスイッチングの戦略について検討する。
論文 参考訳(メタデータ) (2025-04-02T15:09:58Z) - Assessing Code Generation with Intermediate Languages [6.999311675957218]
本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討する。
以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-07T15:35:41Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z) - Multilingual Chart-based Constituency Parse Extraction from Pre-trained
Language Models [21.2879567125422]
本稿では,事前学習した言語モデルから完全(バイナリ)構文を抽出する手法を提案する。
本手法を多言語 PLM に適用することにより,9つの言語から文に対する非自明なパースを導き出すことができる。
論文 参考訳(メタデータ) (2020-04-08T05:42:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。