論文の概要: TLPO: Token-Level Policy Optimization for Mitigating Language Confusion in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.26553v1
- Date: Wed, 29 Apr 2026 11:39:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.372139
- Title: TLPO: Token-Level Policy Optimization for Mitigating Language Confusion in Large Language Models
- Title(参考訳): TLPO:大規模言語モデルにおける言語融合の緩和のためのトークンレベルポリシー最適化
- Authors: Jinho Choo, JunSeung Lee, Jimyeong Kim, Yeeho Song, S. K. Hong, Yeong-Dae Kwon,
- Abstract要約: 大規模言語モデル(LLM)は、強い多言語機能を示すが、意図した言語で一貫して応答を生成できないことが多い。
Token-Level Policy Optimization (TLPO) は,局所化およびトークンレベルの更新による言語混乱を軽減するための微調整フレームワークである。
- 参考スコア(独自算出の注目度): 6.468917070386353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) demonstrate strong multilingual capabilities, yet often fail to consistently generate responses in the intended language, exhibiting a phenomenon known as language confusion. Prior mitigation approaches based on sequence-level fine-tuning, such as DPO, ORPO, and GRPO, operate at the level of entire responses and can lead to unintended degradation of general model capabilities, motivating the need for more fine-grained alternatives. To address this, we introduce Token-Level Policy Optimization (TLPO), a fine-tuning framework designed to mitigate language confusion through localized, token-level updates. TLPO identifies error-prone positions, explores alternative candidate tokens, and updates the policy using a tailored objective to suppress error-inducing outputs at a granular level. This selective intervention enables effective mitigation of language confusion without compromising the model's general abilities. Experiments on multiple multilingual LLMs across diverse languages demonstrate that TLPO significantly outperforms baselines in improving language consistency while preserving downstream task accuracy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、強い多言語機能を示すが、しばしば意図された言語で一貫して応答を生成できず、言語混乱と呼ばれる現象を示す。
DPO、ORPO、GRPOといったシーケンスレベルの微調整に基づく事前緩和アプローチは、応答全体のレベルで動作し、意図しない一般的なモデル機能の低下を招き、よりきめ細かい代替品の必要性を動機付けている。
そこで本稿では,トークンレベル更新による言語混乱を軽減するための微調整フレームワークであるTLPO(Token-Level Policy Optimization)を紹介する。
TLPOは、エラーを起こしやすい位置を特定し、代替候補トークンを探索し、調整された目的を使ってポリシーを更新し、エラーを誘発する出力を粒度レベルで抑制する。
この選択的介入は、モデルの一般的な能力を損なうことなく、言語混乱の効果的な緩和を可能にする。
多様な言語にまたがる多言語LLMの実験により、TLPOは、下流タスクの精度を維持しながら、言語一貫性の向上において、ベースラインを著しく上回ることを示した。
関連論文リスト
- Optimizing Language Models for Crosslingual Knowledge Consistency [90.86445137816942]
大規模な言語モデルは、しばしば一貫性のない知識を示すことが知られている。
これは、モデルが異なる言語で同様の質問をすることが多い、多言語シナリオにおいて特に問題となる。
本研究では,この問題を構造化報酬関数を用いた強化学習を用いて緩和することができることを示す。
論文 参考訳(メタデータ) (2026-03-04T23:36:55Z) - Language Drift in Multilingual Retrieval-Augmented Generation: Characterization and Decoding-Time Mitigation [11.110312833458421]
複数のデータセット,言語,LLMのバックボーンにまたがる多言語RAGにおける出力言語ドリフトについて検討した。
実験の結果,デコーダレベルの崩壊によるドリフトの結果が明らかとなり,そこではトークン分布が支配的であり,高頻度の英文パターンが意図された生成言語を支配下に置くことがわかった。
そこで本研究では,対象言語を優雅に操る軽量でトレーニング不要なデコーディング戦略であるSoft Constrained Decoding (SCD)を提案する。
論文 参考訳(メタデータ) (2025-11-13T05:36:31Z) - Controlling Language Confusion in Multilingual LLMs [0.0]
大規模な言語モデルは、意図しない言語で応答が部分的にまたは完全に生成される現象である言語混乱に悩まされることが多い。
本研究では,標準SFTに不要な出力スタイルのペナルティを付加するORPOを適用し,言語に精通した世代を効果的に抑制する。
論文 参考訳(メタデータ) (2025-05-25T12:15:31Z) - LangPert: Detecting and Handling Task-level Perturbations for Robust Object Rearrangement [21.236557779562794]
LangPertはTLP(Task-Level Perturbations)の検出と緩和を目的とした言語ベースのフレームワークである。
LangPertはVisual Language Model (VLM)を統合し、ポリシーのスキル実行と環境TLPを包括的に監視する。
実験の結果,LangPertはベースライン法よりも多種多様なTLP状況を効果的に処理できることがわかった。
論文 参考訳(メタデータ) (2025-04-14T05:39:15Z) - Northeastern Uni at Multilingual Counterspeech Generation: Enhancing Counter Speech Generation with LLM Alignment through Direct Preference Optimization [1.1368382184602488]
対音声の自動生成は,構築的および情報的応答を提供することにより,ヘイトスピーチに対処するための重要な戦略である。
既存の手法は、高品質でインパクトがあり、スケーラブルなCSを生成するのに失敗することが多い。
本稿では,大規模言語モデル (LLM) をスーパーバイザード・ファインチューニング (SFT) と直接選好最適化 (DPO) で整列させることによりCS生成を向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T23:22:11Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。