論文の概要: SteerEval: Inference-time Interventions Strengthen Multilingual Generalization in Neural Summarization Metrics
- arxiv url: http://arxiv.org/abs/2601.15809v1
- Date: Thu, 22 Jan 2026 09:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.564519
- Title: SteerEval: Inference-time Interventions Strengthen Multilingual Generalization in Neural Summarization Metrics
- Title(参考訳): SteerEval: Inference-time Intervention : ニューラル・サマライゼーション・メトリックにおける多言語一般化の強化
- Authors: Silvia Casola, Ryan Soh-Eun Shim, Felicia Körner, Yuchen Mao, Barbara Plank,
- Abstract要約: この領域における主要な実証的ボトルネックは、多くの言語に対する正確で堅牢な評価指標の不足である。
近年の研究では、多言語モデルはしばしば英語を内部のピボット言語として使用することが示唆されている。
このミスマッチが多言語神経メトリクスにも適用できるという仮説に触発されて、英語のピボットに向けてのアクティベーションを操ることで、人間の判断との相関が向上するかどうかを問う。
- 参考スコア(独自算出の注目度): 33.30877107523988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An increasing body of work has leveraged multilingual language models for Natural Language Generation tasks such as summarization. A major empirical bottleneck in this area is the shortage of accurate and robust evaluation metrics for many languages, which hinders progress. Recent studies suggest that multilingual language models often use English as an internal pivot language, and that misalignment with this pivot can lead to degraded downstream performance. Motivated by the hypothesis that this mismatch could also apply to multilingual neural metrics, we ask whether steering their activations toward an English pivot can improve correlation with human judgments. We experiment with encoder- and decoder-based metrics and find that test-time intervention methods are effective across the board, increasing metric effectiveness for diverse languages.
- Abstract(参考訳): ますます多くの作業が、要約のような自然言語生成タスクに多言語モデルを活用している。
この領域における主要な実証的ボトルネックは、多くの言語の正確で堅牢な評価指標が不足していることであり、進歩を妨げている。
近年の研究では、多言語モデルはしばしば英語を内部のピボット言語として用いており、このピボットとのミスアライメントは下流のパフォーマンスの低下につながることが示唆されている。
このミスマッチが多言語神経メトリクスにも適用できるという仮説に触発されて、英語のピボットに向けてのアクティベーションを操ることで、人間の判断との相関が向上するかどうかを問う。
我々は,エンコーダとデコーダをベースとしたメトリクスを用いて実験を行い,テスト時間介入手法がボード全体で有効であることが確認された。
関連論文リスト
- Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Investigating Language-Specific Calibration For Pruning Multilingual Large Language Models [11.421452042888523]
多様な言語,タスク,モデル,および SotA プルーニング技術を用いて,多言語モデルをプルーニングするためのキャリブレーション言語を比較した。
例えば、ターゲット言語を校正することで、効率的に言語モデリング能力を維持することができるが、必ずしも下流タスクに利益をもたらすとは限らない。
論文 参考訳(メタデータ) (2024-08-26T16:29:13Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。